7B 羊駝戰勝540B “谷歌版GPT”,MIT 用博弈論調教大模型,無需訓練就能完成


原文來源:量子位元

圖片來源:由無界AI生成

基於賽局理論,MIT提出了一個新的大模型最佳化策略。

在其加持之下,7B參數的Llama在多個資料集上超越了540B的「Google版GPT」PaLM。

而且整個過程無需對模型進行額外訓練,消耗的算力資源也更低。

這種基於博弈論制定的最佳化策略稱為均衡排名(Equilibrium Ranking)。

研究團隊將大模型語言解碼過程轉化為正規化不完全資訊賽局。

這個字可以拆解成「正規化」和「不完全資訊賽局」兩部分,我們將在原理詳解部分展開介紹。

在博弈過程中,模型不斷對生產的答案進行最佳化,讓生成結果更符合事實。

實驗結果表明,在多個測試資料集上,均衡排名最佳化方式的效果顯著優於其他方式,甚至其他模型。

那麼,均衡排序方法具體是如何將博弈論應用在大模型當中的呢?

讓大模型“自我博弈”

前面提到,研究者將大模型進行語言解碼的過程直接變成了「正則化不完全資訊賽局」過程。

不完全資訊博弈是整個方法的核心,正規化則是一種避免出錯的機制,我們先來看這種博弈。

具體而言,他們設計了生成器(G)和判別器(D)兩個模組,它們掌握著不同的訊息,扮演不同角色。

生成器根據環境(N)隨機給出的「正確性參數」產生答案;判別器則只負責判斷生成器的答案是否正確,而不看環境參數。

若判別器的判斷與環境參數一致,兩者都得到1分獎勵,否則都不得分。

在執行重複的生成和判別當中,模型的目標是達到納許均衡。

在納許均衡策略組合下單方面改變自己的策略,而其他玩家策略不變,都不會提高自身的效益。

舉個例子,張三和李四一起決定晚餐吃什麼,選項有火鍋和燒烤,其他已知條件如下:

張三對火鍋的滿意度是2分(很喜歡),對燒烤的滿意度為1分(還可以) 李四對燒烤的滿意度是2分,對火鍋的滿意度為1分兩個人都不想自己單獨吃飯,因此單獨吃飯時滿意度皆為0分

此時,兩人的選擇共有四種方式,對應的滿意度得分如下表:

這一情境下,兩人選擇相同時為最佳策略,此時只要任何一個人單方面改變策略,兩人的滿意度將同時變為0。

回到均衡排名優化法當中,生成器和判別器會先初始化策略,二者的依據分別基於問題或答案。

此環境下的納許均衡如下表所示:

初始化完成後,生成器和判別器會進行多輪博弈,逐步更新策略,直到迭代終止。

每一次賽局結束後,分別計算判別器和生成器的得分和最優策略得分的差值,稱為「後悔值」。

然後逐步進行迭代,直到後悔值收斂,逼近納許均衡。

達到納許均衡後,生成器和判別器的策略便確定,會分別對候選答案進行評分,然後進行排序選出最佳答案。

在納許均衡條件下,二者的評分應是一致的,如果不一致,答案就會被剔除。

不過由於給生成器和判斷器評分的標準是與環境資訊的一致性,而不是客觀事實,因此單純追求達到納許均衡,不一定能保證答案合理。

為了避免二者同時出錯的情況出現,開發者也引進了正規化糾錯機制。

首先是向生成器和判別器基於客觀事實的先驗策略,而不是任由其隨機初始化。

這些先驗策略是產生器和判別器產生策略的“金科玉律”,引導了策略的最佳化方向。

在此還有一種KL懲罰策略,當新的策略出現時,會計算其與初始策略的KL散度(又叫相對熵)。

KL散度描述了二者之間的相關性,數值越大,相關性越低。

假設P(x)和Q(x)分別是隨機變數X上的兩個機率分佈,則在離散和連續的情況下,KL散度分別為:

這結果會加入到產生新策略的函數當中,避免了最終產生的結果偏離客觀事實。

如下式所示,獎勵函數U中包含了KL散度項,並設定了懲罰係數λ(>0)。

當KL散度越大,也就是和客觀事實偏差越大時,模型獲得的獎勵分數將會降低。

這樣一來,當生成器和判別器結果一致卻不符合事實時,相關結果不會獲得高評分,也就不會成為最終答案。

憑藉著這樣的策略,研究團隊用更低的消耗量讓7B的Llama取得了優異的成績。

部分能力超越“Google版GPT”

總的來說,均衡排序優化後的Llama在常識推理、閱讀理解、數學和對話任務中的表現都十分出色。

選擇題方面,同樣是Llama,經均衡排名方法優化之後,模型在MMLU等多個資料集上的成績都排在比較前面的位置。

在問答題方面,均衡排名策略優化後的13B Llama在TruthfulQA資料中心化取得了最佳成績,7B版也與第一名相差無幾。

除了文本相關的理解和推理,模型在數學方面也達到了較高程度。

7B Llama模型的許多最佳化方式中,均衡排序取得了GSM8K測驗的最佳成績。

均衡排序法不僅是許多Llama優化方式中的佼佼者,優化後的Llama成績也超過了其他模型。

在ARC資料集的Challenge分集和RACE資料集的High分集上,Llama-7B+均衡排序的準確率分別為58.3%和56.4%,顯著超越了PaLM-540B的53.0%和49.1%。

更多具體細節,可以到原論文中一探究竟。

論文地址:
http://arxiv.org/abs/2310.09139

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts