姚期智領銜提出大模型「思考」框架邏輯推理正確率達98%,思考方式更像人類了


來源:量子位元

圖靈獎得主姚期智領銜的首篇大語言模式論文來了

一出手,瞄準的就是「讓大模型像人一樣思考」這個方向——

不僅要讓大模型一步步推理,還要讓它們學會“步步為營”,記住推理中間的所有正確過程。

具體來說,這篇新論文提出了一種稱為上漲推理(Cumulative Reasoning)的新方法,顯著提高了大模型搞複雜推理的能力。

要知道,大模型是基於思考鍊等,可以進行問題推理,但面對「要拐好幾個彎」的問題,還是容易出錯。

上漲推理正是在此基礎上,加入了一個“驗證者”,及時判斷對錯。由此模型的思考框架也從鏈狀和樹狀,變成了更複雜的「有向無環圖」。

這樣一來,大模型不僅解題思路更清晰,還生出了一手「玩牌」的技巧:

在代數和幾何數論等數學難題上,大模型的相對準確率提升了42%;玩24點,成功率更是飆升到98%。

根據清華大學交叉資訊研究所介紹,共同一作張伊凡解釋了這篇論文的出發點:

卡尼曼認為人類的認知處理過程包括兩個系統:「系統1」是快速、本能和情感化的,「系統2」是緩慢、深思熟慮、合邏輯的。
目前,大語言模型的表現與「系統1」更為接近,這也或許是它不擅長應付複雜任務的原因。

從這個角度出發設計的上漲推理,效果比思考鏈(CoT)和思考樹(ToT)好。

那麼,這種新方法究竟長啥樣呢?我們一起展開看看。

突破思維鏈&樹“瓶頸”

上漲推理的核心,在於改進了大模型思考過程的「形狀」。

具體來說,這個方法用到了3個大語言模型:

提議者(Proposer):不斷提出新命題,即基於當前思維上下文,建議下一步是什麼。驗證者(Verifier):核查提議者的命題準確性,如果正確就將它加入思考脈絡。報告者(Reporter):判斷是否已經能得到最終解決方案,來確定是否結束推理過程。

推理過程中,「提議者」先給提案,「驗證者」負責評估,「報告者」決定是否要敲定答案、終止思考過程。

△CR推理範例

有點像是團隊專案裡的三類角色:小組成員先腦力激盪出各種idea,指導老師「把關」看哪個idea可行,組長決策什麼時候完成專案。

所以,這種方法究竟是怎麼改變大模型思維「形狀」的?

要理解這一點,還得先從大模型思維加強方法「鼻祖」思維鏈(Chain of Thought,CoT)說起。

這個方法在2022年1月由OpenAI科學家Jason Wei等人提出,核心在於為資料中心化的輸入加上一段「逐步推理」文字,激發出大模型的思考能力。

△選自GSM8K資料集

基於思維鏈原理,Google也快速跟進了一個“思維鏈PLUS版”,即CoT-SC,主要是進行多次思維鏈過程,並對答案進行多數投票(majority vote)選出最佳答案,進一步提升推理準確率。

但無論思考鏈或CoT-SC,都忽略了一個問題:題目不只一種解法,人類做題目更是如此。

因此,隨後又出現了一種名叫思考樹(Tree of Thought,ToT)的新研究。

這是一種樹狀檢索方案,允許模型嘗試多種不同的推理思路,並自我評估、選擇下一步行動方案,必要時也可以回溯選擇。

從方法可以看出,思考樹比思維鏈更進一步,讓大模型思維「更活躍」了。

這也是為什麼玩24點時,思維鏈加成的GPT-4成功率只有4%,但思考樹成功率卻飆升到74%。

BUT無論思考鏈、CoT-SC或思考樹,都有一個共同的限制:

它們都沒有設定思維過程中間結果的儲存位置。

畢竟不是所有的思考過程都能做成鍊或樹,人類想東西的方式往往還要更複雜。

這次的上漲推理新框架,在設計上就突破了這一點——

大模型的整體思考過程不一定是鍊或樹,還可以是有向無環圖(DAG)(嗯,有神經突觸內味了)

△圖中的邊都有方向,且不存在任何循環路徑;每個有向邊都是推導步驟

這也意味著,它可以將所有歷史上正確的推理結果儲存於記憶體中,以便在目前搜尋分支中探索。 (相較之下,思維樹並不會儲存來自其它分支的資訊)

但上漲推理也能和思考鏈無縫切換──只要將「驗證者」去掉,就是一個標準的思維鏈模式。

基於這種方法設計的上漲推理,在各種方法上都取得了不錯的效果。

做數學和搞邏輯推理都在行

研究人員選擇了FOLIO wiki和AutoTNLI、24點遊戲、M新高資料集,來對上漲推理進行「測試」。

提議者、驗證者、報告者在每次實驗中使用相同的大語言模型,並用不同的prompt來設定角色。

這裡用來當實驗的有GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B這些基礎模型。

值得一提的是,理想情況下應該使用相關推導任務資料專門預訓練模型、「驗證者」也應加入正規的數學證明器、命題邏輯解算器模組等。

1.邏輯推理能力

FOLIO是一階邏輯推理資料集,問題的標籤可以是「true」、「False」、「Unknown」;AutoTNLI是高階邏輯推理資料集。

在FOLIO wiki資料集上,與直接輸出結果(Direct)、思考鏈(CoT)、進階版思考鏈(CoT-SC)方法相比,上漲推理(CR)表現總是最優。

在刪除資料中心化有問題的實例(例如答案不正確)後,使用CR方法的GPT-4推理準確率達到了98.04%,並且有最小1.96%的錯誤率。

再來看AutoTNLI資料集上的表現:

與CoT方法相比,CR顯著提高了LLaMA-13B、LLaMA-65B的性能。

在LLaMA-65B模型上,CR相較於CoT的改良達到了9.3%。

2.玩24點遊戲能力

ToT最初論文中用到的是24點遊戲,所以這裡研究者就用這個資料集來做CR和ToT的比較。

ToT使用固定寬度和深度的搜尋樹,CR允許大模型自主確定搜尋深度。

研究人員在實驗中發現,在24點的脈絡中,CR演算法和ToT演算法非常相似。不同點在於,CR中演算法每次迭代最多產生一個新的狀態,而ToT在每次迭代中會產生許多候選狀態,並過濾、保留一部分狀態。

通俗來講,ToT沒有上面提到的CR有的“驗證者”,不能判斷狀態(a、b、c)正誤,因此ToT比CR會探索更多無效狀態。

最終CR方法的正確率甚至能達到98%(ToT為74%),且平均造訪狀態數比ToT少很多。

也就是說CR不僅有更高的搜尋正確率,也有更高的搜尋效率。

3.數學能力

M新高資料集包含了大量數學推理題目,包含代數、幾何、數論等,題目難度分為五級。

用CR方法,模型可以將題目分步驟拆解成能較好完成的子問題,自問自答,直到產生答案。

實驗結果表明,CR在兩種不同的實驗設定下,正確率均超出當前已有方法,總體正確率可達58%,並在Level 5的難題中實現了42%的相對準確率提升,拿下了GPT-4模型下的新SOTA。

清華叉院姚期智、袁洋領銜研究

這篇論文來自清華交叉資訊院姚期智和袁洋領銜的AI for Math課程組。

論文共同第一作者為交叉資訊院2021級博士生張伊凡、楊景欽;

指導教師及共同通訊作者為袁洋助理教授、姚期智院士。

張伊凡

張伊凡2021年本科畢業於北京大學元培學院,現師從袁洋助理教授,主要研究方向為基礎模型(大語言模型)的理論與演算法、自我監督學習、可信人工智慧。

楊景欽

楊景欽2021年於清華大學交叉資訊研究院獲學士學位,現師自袁洋助理教授攻讀博士學位。主要研究方向有大語言模型、自監督學習、智慧醫療等。

袁洋

袁洋是清華大學交叉資訊學院助理教授。 2012年畢業於北京大學計算機系;2018年獲美國康乃爾大學計算機博士學位;2018-2019年前往麻省理工學院大數據科學學院做博士後。

他的主要研究方向是智慧醫療、AI基礎理論、應用範疇論等。

姚期智

姚期智是中國科學院院士、清華大學交叉資訊研究院院長;同時也是「圖靈獎」創立以來首位獲獎的亞裔學者、迄今獲此殊榮的唯一華人電腦科學家。

姚期智教授2004年從普林斯頓辭去終身教職回到清華任教;2005年為清華本科生創立了電腦科學實驗班「姚班」;2011年創立「清華量子資訊中心」與「交叉資訊研究所」;2019年再為清華本科生創立了人工智慧學堂班,簡稱「智班」。

如今,他所領導的清華大學交叉資訊研究院早已聲名遠播,姚班、智班都隸屬於交叉資訊院。

姚期智教授研究方向有演算法、密碼學、量子計算等,是這方面的國際先驅與權威。最近,他現身2023世界人工智慧大會,所領導的上海期智研究院目前正在研究「具身通用人工智慧」。

論文連結:https://arxiv.org/abs/2308.04371

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts