DeepMind 實驗室的研究人員創造了能夠以“人類專家級別”玩Stratego 的DeepNash AI 代理。 Gizmodo 寫了關於它的文章。
DeepNash 通過與自己對弈來學習如何下棋。在此過程中,他能夠做出複雜的決定,並以以前的人工智能係統無法做到的“不尋常”方式考慮權衡取捨。
研究人員表示,Stratego 結合了長期決策制定和大量不完善信息的湧入,使其成為人工智能的獨特試驗場。
遊戲通常由兩個人玩。它包括策略和欺騙要素。每個玩家都有一個由部分組成的“軍隊”,每個部分都有自己的價值。勝利是通過奪取敵方旗幟或不讓敵人移動來實現的。
具有不同值的圖形的存在導致步驟和結果的選項非常多。研究人員表示,Stratego 中的“可能狀態”比德州博彩或圍棋要多得多。
為了獲勝,DeepNash 混合了長期戰略和短期決策,如虛張聲勢和冒險。通常,過去的算法無法同時做到這一點。
“DeepNash 能夠在信息和材料之間找到一個重要的權衡點,必要時虛張聲勢並承擔風險,”研究人員說。
通過人工智能分析棋盤“Stratego”的狀態。數據:深度思維。
很可能,DeepNash 的創造者受到美國數學家約翰納什的啟發,他提出了納什均衡。在博弈論中,這是兩個或更多玩家的一組動作,如果對手不這樣做,參與者就會失去改變策略的動力。
DeepNash 試圖通過結合自我博弈和強化學習(稱為R-NaD)在Stratego 中找到納什均衡。使用這種算法和深度神經網絡架構,研究人員能夠創建一個模型,即使在“極其困難的情況下”也能獲勝。
開發人員已經在Gravon 在線平台上針對其他機器人和“頂級玩家”測試了DeepNash。 AI 代理在97% 的時間內擊敗了虛擬對手。對人類的勝率是84%。
因此,AI 在當年和歷史排行榜上都躋身前三名。
研究人員說:“據我們所知,這是人工智能算法首次能夠在人類專家水平上學習玩戰略遊戲。”
回想一下,去年11 月,DeepMind 創造了一種人工智能,它可以自然地與人互動並向他學習。
同月,Meta 創建了一個AI 代理,可以在人類層面上玩外交。
在Telegram 上訂閱ForkLog 新聞:ForkLog AI – 來自AI 世界的所有新聞
發現文中有誤?選擇它並按CTRL+ENTER
資訊來源:由0x資訊編譯自FORKLOG。版權歸作者Богдан Каминский所有,未經許可,不得轉載