作者:王樞 騰訊研究院博士後
早在2001年,就有研究指出遊戲人工智慧領域,有極大的潛力實現或創造類人級的人工智慧(human-level AI)[1]。遊戲作為人工智慧研究的起點,以其任務場景的複雜性和多樣性,為人工智慧在廣度、深度和靈活性等方面接近人類智慧提供了保障。
目前,伴隨著生成式AI和決策AI技術的快速發展,遊戲與人工智慧共振共生的發展態勢更加明顯。在全球遊戲頂會GDC2024(全球遊戲者開發大會2024)上,AI成為大會關注焦點,以AI為主題的演講達64場,佔8%。在生成式AI領域,62%的遊戲業受訪者正在使用AI工具製作遊戲內容[2]。在決策AI領域,Google DeepMind團隊繼Alphastar後再次推出通用遊戲智能體SIMA(Scalable Instructable Multiworld Agent),可根據人類自然語言指令在各類3D遊戲世界中執行超過600多種任務。
技術試驗場:
基於遊戲環境的通用AI Agent實踐
遊戲為決策AI提供清晰測量標準,以遊戲中清晰、可量化的規則評估決策AI的能力,能夠解決人工智慧科學研究場景缺失問題,大幅提陞技術迭代與測試效率。目前,包括OpenAI、DeepMind等在內的大部分決策AI研究團隊都選取遊戲作為訓練場景,致力於在不同類型的遊戲場景中的打造通用智能體,並以此為基礎構建通用人工智慧。
2024年3月13日,Google DeepMind團隊發表名為SIMA(Scalable Instructable Multiworld Agent)的AI智能體,它可以理解廣泛的3D遊戲世界,並且能夠像人類一樣遵循自然語言指令在各類3D遊戲世界中執行超過600多種任務。強大的自然語言理解和遷移學習的能力,讓不不少研究者將SIMA的出現視為「智能體的ChatGPT時刻」。
DeepMind在技術報告中詳細闡述了SIMA的基本原理及技術路徑,將其定義為一種在多重3D虛擬世界中可擴展、可指導的通用遊戲智能體。 DeepMind團隊選取了9款當下流行的3D網路遊戲和4個基於Unity引擎製作的3D場景作為SIMA智能體的訓練環境,並從遊戲中收集了大量人類玩家的行為和操作數據,用以訓練智能體。在具體訓練的過程中,智能體會不斷觀察學習螢幕中的遊戲圖像訊息,並將其與玩家在遊戲中的各類操作指令結合起來,隨後實現透過鍵盤和滑鼠輸出,來控制遊戲中的角色執行各種操作[3]。
圖1 SIMA智能體專案概述
SIMA計畫是DeepMind團隊在通用人工智慧(AGI)研究領域的一個重要里程碑,從圍棋人工智慧AlphaGO和AlphaZero,到基於遊戲《星海爭霸2》的AlphaStar,再到如今基於大語言模型的SIMA,DeepMind團隊一直在基於遊戲環境進行通用智能體的測試和研究,在DeepMind看來,智能體在遊戲環境中訓練出的決策和行動能力,有望能夠遷移到現實世界的場景中,為孵化通用人工智能提供新思路和新實踐。
早在SIMA發布之前,業界已經存在著多個通用遊戲智能體研究項目,其中比較有代表性的工作有兩個,分別是由DeepMind發布的Gato,以及由英偉達發布的Minedojo。
Gato由DeepMind團隊於2022年11月發布,可遊玩雅達利系列遊戲(Atari Games),並可操控真實的機器人手臂堆疊積木。 Gato使用了類GPT的大語言模型架構,其訓練材料包括圖像、文字、機械臂關節資料以及其他多模態資料集(multimodal dataset)[4]。微軟在2023年3月的研究中指出,Gato這類融合了多模態資訊的大模型,極有可能誕生出初期的智能[5]。
圖2 DeepMind 打造的Gato
與Gato類似的還有英偉達、 加州理工學院(Caltech)和史丹佛(Stanford)等研究機構基於《我的世界》遊戲共同打造的智能體MineDojo。 Minedojo將《我的世界》遊戲的玩家影片(YouTube)、百科(Wiki)和用戶社群(Reddit)的資訊作為訓練材料,訓練出一個能夠在《我的世界》遊戲中根據文字提示訊息,完成各種不同任務的通用智能體。 Minedojo不僅能夠完成一些簡單的程式化任務(programmatic tasks),還可以根據簡單描述完成一系列創造任務(creative tasks),例如根據描述建造一個圖書館等[6]。
圖3 Minedojo 能力模型
Gato和Minedojo這兩項工作分別對應著人工智慧研究中的兩類不同思路:解決足夠的任務或解決一個足夠複雜的任務。但上述兩項研究也存在一定限制,例如Minedojo只是針對特定遊戲類的專用智能,只能在單一遊戲中完成各類任務,並不具備遷移學習的能力;Gato雖然具備一定遷移學習能力,但其主要應用環境都是一些2D遊戲,而非3D遊戲環境,與現實世界場景差距較大。
目前,基於遊戲環境訓練通用AI Agent已經成為業界共識。在TED AI 2023演講上,英偉達高級科學家Jim Fan 提出了基礎模型(Foundation Agent)概念,認為AI研究的下一個前沿將是塑造一個可以在虛擬世界和現實世界中泛化,掌握廣泛技能,控制許多身體,並能夠泛化到多個環境中“基礎模型”,而這個模型的訓練,同樣離不開遊戲環境[7]。在國內,騰訊也主導建構起AI多智能體與複雜決策開放研究平台-開悟,依托騰訊AI Lab與《王者榮耀》在演算法、算力、實驗場景的核心優勢,為學術研究人員及演算法開發者提供國內領先的應用探索平台。
能力新突破:
SIMA實作大語言模型
與AI Agent訓練的有效融合
SIMA的出現,將大語言模型與智能體訓練結合,實現了AI智能體決策能力和泛化的突破。 SIMA不僅能較好地理解各種3D遊戲環境,還能像人類一樣按照自然語言指令在各種3D遊戲世界中執行各類任務,並且在決策效率與能力上遠超其他智能體,具備了與人類相近的決策能力[8]。 DeepMind 創辦人及CEO德米斯‧哈薩比斯(Demis Hassabis)在訪談中更是直言,「將大語言模型、AI智能體訓練與遊戲環境結合的這個領域,有著巨大的發展前景,DeepMind未來將持續加大該領域的研究投入[9]。 」整體來看,與其他SIMA的特徵和突破主要體現在以下幾個方面:
第一,SIMA使用遊戲環境進行訓練,但更重視智能體行為與接收指令的一致性。在DeepMind團隊看來,「遊戲是人工智慧(AI) 系統的重要試驗場,與現實世界一樣,遊戲也是一種豐富的學習環境,具有反應靈敏的即時設定和不斷變化的目標。」 SIMA 與DeepMind團隊先前發布的遊戲智能體相比,相同之處在於其訓練過程中也觀察學習了大量人類玩家的行為數據,不同之處在於SIMA訓練的目的不在於擊敗人類玩家或在遊戲內取得高分,而是為了學習在各種遊戲環境中遵從人類發出的自然語言指令,並在遊戲環境中作出與指令一致的行為。
第二,SIMA將大語言模型與智能體訓練結合,並採用統一且人性化的互動介面。 「語言和環境的學習是相輔相成的,透過學習自然語言,能夠提升智能體對於通用表徵和抽象概念的理解能力,提高學習效率。」相較於之前各種基於遊戲環境的智能體,SIMA在訓練中引入了大語言模型,整個訓練過程都遵循語言優先的規則,所有的訓練行為都由自然語言直接驅動。也就是說,SIMA 既不需要存取遊戲的原始碼,也不需要自訂的API。它只需要兩個輸入:螢幕上的圖像訊息,以及使用者提供的自然語言指令,即可使用鍵盤和滑鼠控制遊戲中的角色執行這些指令。在具體互動方式上,SIMA採用了統一且人性化的互動介面,人類可以直接呼叫此互動介面向SIMA發出自然語言指令(如下圖4)。
圖4 SIMA智能體架構
第三,SIMA擁有良好的泛化能力,能夠在不同虛擬場景中維持較高能力水準。根據DeepMind團隊目前公佈數據,SIMA已經透過600項基礎技能進行評估,涵蓋導航(例如左轉)、物件互動(爬梯子)和選單使用(開啟地圖)等,並且在多個遊戲環境中都表現出了高於同類智能體的性能水準。 DeepMind研究人員評估了SIMA 按照指令完成近1500 個具體遊戲內(in-game)任務的能力,其中部分採用了人類評估,結果顯示無論在哪種遊戲環境中,SIMA的表現都遠超同類型智能體(如圖5)。
圖5 多個智能體在不同環境下的效能對比
應用新場景:
AI助力遊戲創作
提升內容創作效能
遊戲成為打造通用AI Agent的試驗場和孵化器,不斷推動決策AI 技術的更新迭代。同時,伴隨著以Stable Diffusion、Transformer等生成式AI技術的成熟,AI技術也開始反向助力遊戲以及更廣泛的文化產業的內容創作,越來越多的從業人員能夠以更低成本生成圖片、文字、影音、NPC等數位資產,提升產品研發效能,進一步降低互動內容的製作門檻。
在應用層面,生成式AI模型已成為遊戲開發者的強大助手。 《2024 Unity 遊戲業報告》數據顯示,在使用AI技術之後,有71%遊戲工作室表示其研發和營運效能得到了提升,這種效率的提升不僅體現在賦能單一內容創作者方面,也體現在能夠有效降低不同環節工作者的溝通成本方面。
在遊戲內容的生產側,生成式AI已被廣泛應用於文字生成、2D美術創作、程式碼產生與偵測、關卡設計生成等環節。在AI工具介入遊戲美術工作流程之前,遊戲美術工作者完成一張高品質的插畫圖的時間大概在一週左右,在使用Stable Diffusion等生成式AI工具後,能將一張高品質插畫圖的生成時間縮短至1天。
圖6 基於AIGC工具的插畫人物繪製過程
在降低不同類型工作者溝通成本方面,生成式AI也有著龐大的應用空間。例如在遊戲製作過程中,尤其是在對遊戲美術風格進行定調和選型時,遊戲規劃和美術工作者之間的溝通往往需要耗費大量的時間成本。生成式AI工具的介入,能夠幫助策劃者快速將創意落地並呈現,大幅降低溝通成本。
在工具層面,隨著生成式AI對遊戲研發效能的提升,各類遊戲公司也開始將其融入各自內容製作工具中。遊戲晶片公司英偉達於2023年6月發布了面向遊戲開發者的AI工具平台NVIDIA ACE for Games,讓遊戲開發者可以在遊戲中構建和部署定制化的語音、對話和動畫等AI模型,極大提升遊戲內容生產和製作效率;在GDC 2024上,NVIDIA和Inworld 共同公佈了一項全新的數位人技術Covert Protocol,基於該技術塑造的遊戲NPC能夠與玩家進行即時交互,並且能夠基於互動內容,即時生成遊戲玩法[10]。
圖7 NVIDIA發布的Covert Protocol技術demo
遊戲引擎公司Unity和Unreal也相繼發布基於生成式AI的新產品。 Unity於2023年7月發表兩款以人工智慧技術為基礎的新產品:Sentis 和Muse,據悉兩款產品可將傳統內容創作的效率提升十倍;Unreal也在自身引擎中整合了大量應用了AIGC工具,如數位人製作工具Metahuman creator,嘗試以人工智慧技術加速創造高品質的角色及大規模場景生成效率。
遊戲製作公司也全面擁抱AI技術,用AI賦能內容製作工具,不斷提升內容研發效率。以騰訊為例,騰訊AI Lab 在GDC 2024 重磅發布了自研遊戲全生命週期AI引擎“GiiNEX”,該引擎借助騰訊自研生成式AI和決策AI模型,面向AI驅動的NPC、場景製作、內容生成等領域,可提供包含3D圖形、動畫、城市及音樂等多種AIGC能力。在GiiNEX引擎輔助下,原本需要5天才能完成的城市建模任務,現在只需25分鐘即可完成,效率提升達百倍[11]。
圖8 騰訊遊戲AI引擎GiiNEX架構圖
結語
自1956年達特茅斯會議開始,在人工智慧領域,早期的電腦科學家將AI定義為“使一部機器的反應方式像一個人在行動時所依據的智能”[12],後來幾乎所有的人工智慧研究都循著「模擬」人類智慧的路徑,試圖打造出能聽、能看、能說、能思考、能學習、能行動的人工智慧,提升其感知、認知現實世界與遂行決策行動的能力。
時至今日,人工智慧研究仍遵循著模擬人類的路徑和目標。如果說以ChatGPT、Sora等代表的生成式AI大模型,提升了人工智慧對事物的「感知」與「認知」能力,完成了邁向通用人工智慧的第一步。那麼能夠讓人工智慧在複雜、多樣的遊戲環境中透過機器學習做出合適的「選擇」的決策AI模型,則讓人工智慧具備了「行動」能力,能夠根據自身和環境資訊進行自主決策,實現了邁向通用人工智慧至關重要的一步。
儘管當下的人工智慧研究距離實現AGI還有相當長的路要走,但生成式AI和決策AI的結合,無疑為實現AGI開闢了新的可能性,而遊戲作為訓練AI的試驗場,在通用人工智慧研究中的角色也愈發重要。我們看到,基於大語言模型和AI智能體的結合,已經能夠塑造出像SIMA這樣的通用遊戲智能體,不僅能在給定環境下做出有效決策,還能不斷學習和適應未知環境,並根據自然語言指令完成各類複雜任務,表現出類人智能。未來,隨著訓練環境的不斷增加,通用遊戲智能體或將具備對更複雜、更高級語言指令的理解和能力,人們有望創造出更為靈活、適應性更強、更接近人類智能的AI系統。我們也期待,有一天,通用智能體能夠通過遊戲這個小世界的測試,順利走向現實大世界的廣闊舞台,服務人類社會的千行百業。
感謝曹建峰、劉林、王鵬等在本文寫作過程中給予的指導!