Meta 研究人員公佈了Cicero 人工智能算法,該算法可以在人類水平上玩外交棋盤遊戲。寄存器寫了它。
《外交》是1953年研製的。遊戲側重於參與者之間的溝通和談判。他們每個人都扮演著20 世紀初歐洲七個國家之一的角色。
基本上,Cicero 是一個聊天機器人,可以與其他參與者協商以採取有效行動。該算法基於具有27 億個參數的類BART 語言模型。
他接受了互聯網文本的預訓練,以及40,000 多場在線外交遊戲的數據集。該數據集包含比賽期間人們之間交易所的超過1200 萬條消息。
人工智能特工西塞羅的“外交”遊戲截圖。數據:元。
AI 代理的對話輸出與其戰略思維模塊相關聯。有了它,西塞羅創造了“意圖”,代表不同玩家可能採取的一系列行動。
“戰略思維模塊預測其他參與者的政策 [вероятные действия] 基於董事會的狀態和一般對話的當前行動,然後為自己選擇當前行動的政策,“研究人員說。
與國際象棋的AI 代理不同,研究人員使用過去遊戲的數據應用監督學習。然而,研究人員表示,這種方法本身創建了一個容易上當受騙的模型,很容易被不法玩家操縱。
為了防止這種情況,開發人員將piKL 迭代規划算法連接到Cicero。有了它,AI 代理會根據機器人與人類之間的對話,完善對其他玩家策略和計劃行動的初步預測。該算法試圖通過評估將提供最佳結果的不同選項來改善參與者的預期動作集。
在兩個月的時間裡,研究人員在40 場匿名外交遊戲中測試了西塞羅。根據測試結果,AI 代理進入了超過一次的參與者的前10%。在玩了五場或更多遊戲的用戶排名中,該算法位居第二。
在所有40 場比賽中,西塞羅的平均命中率為25.8%,是他82 名對手平均命中率12.4% 的兩倍多。
外交世界冠軍安德魯格羅夫讚揚了算法對遊戲的冷靜態度。
“許多人會軟化他們的態度或採取報復行動,但西塞羅從不這樣做。 他只是按照他的看法來處理情況。 因此,他在執行策略時是冷酷無情的,但並不是那種會惹惱其他玩家的冷酷無情,”他說。
根據開發人員的說法,西塞羅仍然會犯一些錯誤。然而,他們希望他們的研究對其他應用程序有用,例如用於長時間對話的聊天機器人或逼真的視頻遊戲角色。
Meta 還發布了Cicero 源代碼,以便任何人都可以為其開發做出貢獻。
回想一下,在11 月,這家科技巨頭在發布三天后關閉了AI for Science。該算法被指控產生假貨和錯誤信息。
在Telegram 上訂閱ForkLog 新聞:ForkLog AI – 來自AI 世界的所有新聞
發現文中有誤?選擇它並按CTRL+ENTER
資訊來源:由0x資訊編譯自FORKLOG。版權歸作者Богдан Каминский所有,未經許可,不得轉載