DeepMind 教AI 與人玩“Stratego”

DeepMind 實驗室的研究人員創造了能夠以“人類專家級別”玩Stratego 的DeepNash AI 代理。 Gizmodo 寫了關於它的文章。

DeepNash 通過與自己對弈來學習如何下棋。在此過程中，他能夠做出複雜的決定，並以以前的人工智能係統無法做到的“不尋常”方式考慮權衡取捨。

研究人員表示，Stratego 結合了長期決策制定和大量不完善信息的湧入，使其成為人工智能的獨特試驗場。

遊戲通常由兩個人玩。它包括策略和欺騙要素。每個玩家都有一個由部分組成的“軍隊”，每個部分都有自己的價值。勝利是通過奪取敵方旗幟或不讓敵人移動來實現的。

具有不同值的圖形的存在導致步驟和結果的選項非常多。研究人員表示，Stratego 中的“可能狀態”比德州博彩或圍棋要多得多。

為了獲勝，DeepNash 混合了長期戰略和短期決策，如虛張聲勢和冒險。通常，過去的算法無法同時做到這一點。

“DeepNash 能夠在信息和材料之間找到一個重要的權衡點，必要時虛張聲勢並承擔風險，”研究人員說。

通過人工智能分析棋盤“Stratego”的狀態。數據：深度思維。

很可能，DeepNash 的創造者受到美國數學家約翰納什的啟發，他提出了納什均衡。在博弈論中，這是兩個或更多玩家的一組動作，如果對手不這樣做，參與者就會失去改變策略的動力。

DeepNash 試圖通過結合自我博弈和強化學習（稱為R-NaD）在Stratego 中找到納什均衡。使用這種算法和深度神經網絡架構，研究人員能夠創建一個模型，即使在“極其困難的情況下”也能獲勝。

開發人員已經在Gravon 在線平台上針對其他機器人和“頂級玩家”測試了DeepNash。 AI 代理在97% 的時間內擊敗了虛擬對手。對人類的勝率是84%。

因此，AI 在當年和歷史排行榜上都躋身前三名。

研究人員說：“據我們所知，這是人工智能算法首次能夠在人類專家水平上學習玩戰略遊戲。”

回想一下，去年11 月，DeepMind 創造了一種人工智能，它可以自然地與人互動並向他學習。

同月，Meta 創建了一個AI 代理，可以在人類層面上玩外交。

在Telegram 上訂閱ForkLog 新聞：ForkLog AI – 來自AI 世界的所有新聞

發現文中有誤？選擇它並按CTRL+ENTER

資訊來源：由0x資訊編譯自FORKLOG。版權歸作者Богдан Каминский所有，未經許可，不得轉載