7B 羊駝戰勝540B “谷歌版GPT”，MIT 用博弈論調教大模型，無需訓練就能完成

原文來源：量子位元

圖片來源：由無界AI生成

基於賽局理論，MIT提出了一個新的大模型最佳化策略。

在其加持之下，7B參數的Llama在多個資料集上超越了540B的「Google版GPT」PaLM。

而且整個過程無需對模型進行額外訓練，消耗的算力資源也更低。

這種基於博弈論制定的最佳化策略稱為均衡排名（Equilibrium Ranking）。

研究團隊將大模型語言解碼過程轉化為正規化不完全資訊賽局。

這個字可以拆解成「正規化」和「不完全資訊賽局」兩部分，我們將在原理詳解部分展開介紹。

在博弈過程中，模型不斷對生產的答案進行最佳化，讓生成結果更符合事實。

實驗結果表明，在多個測試資料集上，均衡排名最佳化方式的效果顯著優於其他方式，甚至其他模型。

那麼，均衡排序方法具體是如何將博弈論應用在大模型當中的呢？

讓大模型“自我博弈”

前面提到，研究者將大模型進行語言解碼的過程直接變成了「正則化不完全資訊賽局」過程。

不完全資訊博弈是整個方法的核心，正規化則是一種避免出錯的機制，我們先來看這種博弈。

具體而言，他們設計了生成器（G）和判別器（D）兩個模組，它們掌握著不同的訊息，扮演不同角色。

生成器根據環境（N）隨機給出的「正確性參數」產生答案；判別器則只負責判斷生成器的答案是否正確，而不看環境參數。

若判別器的判斷與環境參數一致，兩者都得到1分獎勵，否則都不得分。

在執行重複的生成和判別當中，模型的目標是達到納許均衡。

在納許均衡策略組合下單方面改變自己的策略，而其他玩家策略不變，都不會提高自身的效益。

舉個例子，張三和李四一起決定晚餐吃什麼，選項有火鍋和燒烤，其他已知條件如下：

張三對火鍋的滿意度是2分（很喜歡），對燒烤的滿意度為1分（還可以）李四對燒烤的滿意度是2分，對火鍋的滿意度為1分兩個人都不想自己單獨吃飯，因此單獨吃飯時滿意度皆為0分

此時，兩人的選擇共有四種方式，對應的滿意度得分如下表：

這一情境下，兩人選擇相同時為最佳策略，此時只要任何一個人單方面改變策略，兩人的滿意度將同時變為0。

回到均衡排名優化法當中，生成器和判別器會先初始化策略，二者的依據分別基於問題或答案。

此環境下的納許均衡如下表所示：

初始化完成後，生成器和判別器會進行多輪博弈，逐步更新策略，直到迭代終止。

每一次賽局結束後，分別計算判別器和生成器的得分和最優策略得分的差值，稱為「後悔值」。

然後逐步進行迭代，直到後悔值收斂，逼近納許均衡。

達到納許均衡後，生成器和判別器的策略便確定，會分別對候選答案進行評分，然後進行排序選出最佳答案。

在納許均衡條件下，二者的評分應是一致的，如果不一致，答案就會被剔除。

不過由於給生成器和判斷器評分的標準是與環境資訊的一致性，而不是客觀事實，因此單純追求達到納許均衡，不一定能保證答案合理。

為了避免二者同時出錯的情況出現，開發者也引進了正規化糾錯機制。

首先是向生成器和判別器基於客觀事實的先驗策略，而不是任由其隨機初始化。

這些先驗策略是產生器和判別器產生策略的“金科玉律”，引導了策略的最佳化方向。

在此還有一種KL懲罰策略，當新的策略出現時，會計算其與初始策略的KL散度（又叫相對熵）。

KL散度描述了二者之間的相關性，數值越大，相關性越低。

假設P(x)和Q(x)分別是隨機變數X上的兩個機率分佈，則在離散和連續的情況下，KL散度分別為：

這結果會加入到產生新策略的函數當中，避免了最終產生的結果偏離客觀事實。

如下式所示，獎勵函數U中包含了KL散度項，並設定了懲罰係數λ(>0)。

當KL散度越大，也就是和客觀事實偏差越大時，模型獲得的獎勵分數將會降低。

這樣一來，當生成器和判別器結果一致卻不符合事實時，相關結果不會獲得高評分，也就不會成為最終答案。

憑藉著這樣的策略，研究團隊用更低的消耗量讓7B的Llama取得了優異的成績。

部分能力超越“Google版GPT”

總的來說，均衡排序優化後的Llama在常識推理、閱讀理解、數學和對話任務中的表現都十分出色。

選擇題方面，同樣是Llama，經均衡排名方法優化之後，模型在MMLU等多個資料集上的成績都排在比較前面的位置。

在問答題方面，均衡排名策略優化後的13B Llama在TruthfulQA資料中心化取得了最佳成績，7B版也與第一名相差無幾。

除了文本相關的理解和推理，模型在數學方面也達到了較高程度。

7B Llama模型的許多最佳化方式中，均衡排序取得了GSM8K測驗的最佳成績。

均衡排序法不僅是許多Llama優化方式中的佼佼者，優化後的Llama成績也超過了其他模型。

在ARC資料集的Challenge分集和RACE資料集的High分集上，Llama-7B+均衡排序的準確率分別為58.3%和56.4%，顯著超越了PaLM-540B的53.0%和49.1%。

更多具體細節，可以到原論文中一探究竟。

論文地址：
http://arxiv.org/abs/2310.09139

7B 羊駝戰勝540B “谷歌版GPT”，MIT 用博弈論調教大模型，無需訓練就能完成

OpenAI CEO：推出GPT-5模型切換，付費用戶可選擇4o，4.5僅向Pro用戶開放

這波牛市，如何尋找Alpha 收益？

卓銳證券獲香港證監會批准開展虛擬資產存提幣業務

Bitmine計劃歷史悠久的245億美元以太坊收購

Cosmos Health 完成100 萬美元ETH 初始購買

郵政漲勢已經結束了嗎？

Bybit Web3通過新增八個代幣及直接交易選項實現擴展

8月13日隔夜重要動態一覽

7B 羊駝戰勝540B “谷歌版GPT”，MIT 用博弈論調教大模型，無需訓練就能完成

Related Posts