作者：新智元

來自東京大學的Suspicion Agent利用GPT-4，在不完全資訊賽局中展現了高階的心智理論能力（ToM）。

在完全資訊賽局中，每個博弈都知道所有資訊要素。

但不完全資訊博弈不同，它模擬了現實世界中在不確定或不完全資訊下進行決策的複雜性。

GPT-4作為目前最強大模型，具有非凡的知識檢索和推理能力。

但GPT-4能否利用已學到的知識進行不完全資訊博弈？

為此，東京大學的研究人員引進了Suspicion Agent這項創新智能體，透過利用GPT-4的能力來執行不完全資訊博弈。

論文網址：https://arxiv.org/abs/2309.17277

在研究中，基於GPT-4的Suspicion Agent能夠透過適當的提示工程來實現不同的功能，並在一系列不完全資訊牌局中表現出了卓越的適應性。

最重要的是，在賽局過程中，GPT-4展現了強大的高階心智理論（ToM）能力。

GPT-4可以利用自己對人類認知的理解來預測對手的思考過程、易感性和行動。

這意味著GPT-4具備像人類一樣理解他人並有意影響他人的行為。

同樣的，基於GPT-4的智能體在不完全資訊賽局中的表現也優於傳統演算法，這可能會激發LLM在不完全資訊賽局中的更多應用。

01 訓練方法

為了讓LLM能夠在沒有專門訓練的情況下玩各種不完全資訊賽局遊戲，研究人員將整個任務分解為下圖所示的幾個模組，如觀察解釋器、遊戲模式分析和規劃模組。

並且，為了緩解LLM在不完全資訊遊戲中可能會被誤導這一問題，研究人員首先開發了結構化提示，幫助LLM理解遊戲規則和當前狀態。

對於每種類型的不完全資訊博弈，都可以寫出如下結構化規則描述：

一般規則：遊戲簡介、回合數和投注規則；

動作描述：（動作1 的描述）、（動作2 的描述）……；

單局輸贏規則：單局輸贏或平手的條件；

輸贏回報規則：單局輸贏的獎勵或懲罰；

整局輸贏規則：對局數和整體輸贏條件。

在大多數不完全資訊賽局環境中，博弈狀態通常表示為低階數值，例如按一下向量，以方便機器學習。

但透過LLM，就可以將低層次的博弈狀態轉換為自然語言文本，從而幫助模式的理解：

輸入說明：接收到的輸入類型，如字典、清單或其他格式，並描述遊戲狀態中的元素數量以及每個元素的名稱；

元素描述：（元素11 的描述，（元素2 的描述），….

轉換提示：將低階遊戲狀態轉換為文字的更多指南。

在不完全資訊賽局中，這種表述方式能更容易理解與模型之間的交互作用。

研究人員引入了一種虛無規劃方法，該方法具有一個Reflexion模組，旨在自動檢查對局歷史，使LLMs能夠從歷史經驗中學習和改進規劃，以及一個單獨的規劃模組，專門用於做出相應的決策。

然而，虛無的規劃方法往往難以應對不完全資訊賽局中固有的不確定性，尤其是在面對善於利用他人策略的對手時。

受這種適應性的啟發，研究人員設計出了一種新的規劃方法，即利用LLM的ToM能力來了解對手的行為，從而相應地調整策略。

02 實驗定量評估

如表1所示，Suspicion Agent優於所有基線，基於GPT-4的Suspicion Agent在比較中獲得了最高的平均籌碼數。

這些發現有力地展示了在不完全資訊賽局領域採用大型語言模型的優勢，同時也證明了研究提出框架的有效性。

下圖顯示了Suspicion Agent和基線模型的行動百分比。

可以觀察到：

Suspicion Agent vs CFR：CFR演算法是一種保守策略，它傾向於保守，經常在持有弱牌時棄牌。

而Suspicion Agent成功辨識了這個模式，並策略性地選擇更頻繁地加註，向CFR 施加棄牌壓力。

這使得即使Suspicion Agent的牌很弱或與CFR的牌相當的情況下，它積累了更多籌碼。

Suspicion Agent vs DMC：DMC基於搜尋演算法，採用了更多樣化的策略，包括虛張聲勢。它常在自己手牌最弱、最強時都會加註。

作為回應，Suspicion Agent根據自己的手牌和觀察到的DMC的行為，減少了加註頻率，並更多地選擇跟注或棄牌。

Suspicion Agent vs DON：DON演算法的立場更加激進，幾乎總是用強牌或中級牌加註，從不棄牌。

Suspicion Agent發現了這一點，並反過來盡量減少自己的加註，更多地根據公共牌和DON的行動選擇跟注或棄牌。

Suspicion Agent Vs NFSP：NFSP表現出跟注策略，選擇總是跟注並從不棄牌。

Suspicion Agent的應對方式是減少加註頻率，並根據公共牌和NFSP觀察到的行動選擇棄牌。

根據上述分析結果，可以看到Suspicion Agent具有很強的適應性，能夠利用其他各種演算法所採用策略的弱點。

這充分說明了大語言模型在不完美資訊賽局中的推理和適應能力。

03 定性評估

在定性評估中，研究人員在三個不完全資訊賽局遊戲（Coup、Texas Hold’emLimit 和Leduc Hold’em）中對Suspicion Agent進行了評估。

Coup，中文翻譯是政變，這是一種紙牌遊戲，玩家扮演政治家，試圖推翻其他玩家的政權。遊戲的目標是在遊戲中存活並累積權力。

Texas Hold’em Limit，即德州撲克（有限注），是一種非常流行的撲克牌遊戲，有多個變體。「Limit」表示在每輪下注中有固定的上限，這意味著玩家只能下固定金額的賭注。

Leduc Hold’em是則是德州撲克的簡化版本，用於研究博弈論和人工智慧。

在每種情況下，Suspicion Agent手中有一張Jack，而對手要麼有一張Jack，要麼有一張Queen。

對手最初選擇跟注而不是加註，暗示他們手牌較弱。在普通計劃策略下，Suspicion Agent選擇跟注以查看公共牌。

當這揭示對手手牌較弱時，對手迅速加註，使Suspicion Agent處於不穩定的局面，因為Jack是最弱的手牌。

在一階理論心智策略下，Suspicion Agent選擇棄牌，以最小化損失。這個決定是基於觀察到對手通常在手中有Queen或Jack時才跟注。

然而，這些策略未能充分利用對手手牌的推測弱點。這個缺點源自於它們不考慮Suspicion Agent的舉動可能如何影響對手的反應。

相較之下，如圖9所示，簡單的提示能夠讓Suspicion Agent了解如何影響對手的行動。有意選擇加註會給對手帶來壓力，促使他們棄牌並最小化損失。

因此，即使手牌的強度相似，Suspicion Agent也能夠贏得許多比賽，從而比基線贏得更多的籌碼。

此外，如圖10所示，在對手跟注或回應Suspicion Agent的加註情況下（這表示對手手牌強大），Suspicion Agent就會迅速調整策略，選擇棄牌以防止進一步損失。

這顯示了Suspicion Agent的出色戰略靈活性。

04 消融研究與組件分析

為了探討不同階ToM感知規劃方法如何影響大型語言模型的行為，研究人員在Leduc Hold’em和plaagainst CFR上進行了實驗和比較。

圖5中展示了採用不同ToM水平規劃的Suspicion Agent的行動百分比，並在表3中展示了籌碼收益結果。

表3：Suspicion Agent在使用不同等級ToM與CFRonLeduc Hold’em環境對弈時的比較結果以及100局遊戲後的量化結果

可以觀察到：

基於Reflexion modulevanilla規劃在對局過程中傾向於更多地跟注和過牌（在對陣CFR和DMC時跟注和過牌比例最高），這無法施加壓力使對手棄牌，並導致許多不必要的損失。

但如表3所示，vanilla計畫的籌碼收益最低。

利用一階ToM，Suspicion Agent能夠根據自己的牌力和對對手牌力的估計做出決策。

因此，它加註的次數會多於普通計劃，但它棄牌的次數往往多於其他策略，目的是盡量減少不必要的損失。然而，這種謹慎的方法會被精明的對手模型所利用。

例如，DMC經常在拿著最弱的一手牌時加註，而CFR有時甚至會在拿著中級牌時加註，以對Suspicion Agent施加壓力。在這些情況下，Suspicion Agent的加倍傾向會導致損失。

相較之下，Suspicion Agent更擅長辨識並利用對手模型的行為模式。

具體來說，當CFR選擇過牌（通常表示手牌較弱）或當DMC過牌（表示其手牌與公共牌不一致）時，Suspicion Agent會以虛張聲勢的方式加註，誘使對手棄牌。

因此，Suspicion Agent在三種規劃方法中表現出最高的加註率。

這種激進的策略讓Suspicion Agent即使手持弱牌也能累積更多籌碼，從而最大限度地提高籌碼收益。

為了評估後視觀察的影響，研究人員進行了後視觀察不納入目前遊戲的消融研究。

如表4和表5所示，在沒有後視觀察觀察的情況下，Suspicion Agent仍能保持其相對於基準方法的效能優勢。

表4：比較結果顯示了在萊德克牌局環境中將對手觀察納入對局歷史的影響

表5：比較結果表明，當Suspicion Agent在Leduc Hold’em 環境中與CFR對弈時，在對局歷史中加入對手觀察結果的影響。結果是使用不同種子進行100局對局後的輸贏籌碼，輸贏籌碼數從1到14不等

05 結論

Suspicion Agent沒有進行任何專門的訓練，僅利用GPT-4的先驗知識和推理能力，就能在Leduc Hold’em等不同的不完全資訊遊戲中戰勝專門針對這些遊戲訓練的演算法，如CFR和NFSP 。

這表明大模型具有在不完全資訊遊戲中取得強大表現的潛力。

透過整合一階和二階理論心智模型，Suspicion Agent可以預測對手的行為，並相應調整自己的策略。這使得它可以對不同類型對手進行適應。

Suspicion Agent也展現了跨不同不完全資訊遊戲的泛化能力，僅根據遊戲規則和觀察規則，就可以在Coup和Texas Hold’em等遊戲中進行決策。

但Suspicion Agent也有一定的限制。例如，由於計算成本限制，對不同演算法的評估樣本量較小。

而推理成本高昂，每局遊戲耗費接近1美元，而Suspicion Agent的輸出對提示的敏感度較高，有hallucination的問題。

同時，在進行複雜推理和計算時，Suspicion Agent的表現也不盡人意。

未來，Suspicion Agent將在計算效率、推理穩健性等方面進行改進，並支援多模態和多步驟推理，以實現對複雜遊戲環境的更好適應。

同時，Suspicion Agent在不完全資訊賽局遊戲中的應用，也可以遷移到未來多模態資訊的整合，模擬更真實的互動、擴展到多玩家遊戲環境中。

參考資料：

https://arxiv.org/abs/2309.17277

GPT-4用「心智理論」玩德撲如何完勝人類

01 訓練方法

02 實驗定量評估

03 定性評估

04 消融研究與組件分析

05 結論

比特幣牛市標誌確認已佔據6%市場份額

2025年2UP賭場獎金與VIP福利概述

XRP預計將通過QR錢包在偏遠農村社區實現採用

8月14日隔夜重要動態一覽

Ondo、SPX、PEPD與ETH：頂級以太坊分析師推薦的四種讓你成為百萬富翁的加密貨幣與Pepe Dollar購買指南

距離歷史高點一步之遙，業內深入分析以太坊未來發展走勢

屈服邊緣隨漂移而變化

2025年Casinopunkz賭場獎金與VIP福利概述

GPT-4用「心智理論」玩德撲如何完勝人類

01 訓練方法

02 實驗定量評估

03 定性評估

04 消融研究與組件分析

05 結論

Related Posts