遊戲裡的智慧革命：AI如何與遊戲共創未來？

作者：王樞騰訊研究院博士後

早在2001年，就有研究指出遊戲人工智慧領域，有極大的潛力實現或創造類人級的人工智慧（human-level AI）[1]。遊戲作為人工智慧研究的起點，以其任務場景的複雜性和多樣性，為人工智慧在廣度、深度和靈活性等方面接近人類智慧提供了保障。

目前，伴隨著生成式AI和決策AI技術的快速發展，遊戲與人工智慧共振共生的發展態勢更加明顯。在全球遊戲頂會GDC2024（全球遊戲者開發大會2024）上，AI成為大會關注焦點，以AI為主題的演講達64場，佔8%。在生成式AI領域，62%的遊戲業受訪者正在使用AI工具製作遊戲內容[2]。在決策AI領域，Google DeepMind團隊繼Alphastar後再次推出通用遊戲智能體SIMA（Scalable Instructable Multiworld Agent），可根據人類自然語言指令在各類3D遊戲世界中執行超過600多種任務。

技術試驗場：

基於遊戲環境的通用AI Agent實踐

遊戲為決策AI提供清晰測量標準，以遊戲中清晰、可量化的規則評估決策AI的能力，能夠解決人工智慧科學研究場景缺失問題，大幅提陞技術迭代與測試效率。目前，包括OpenAI、DeepMind等在內的大部分決策AI研究團隊都選取遊戲作為訓練場景，致力於在不同類型的遊戲場景中的打造通用智能體，並以此為基礎構建通用人工智慧。

2024年3月13日，Google DeepMind團隊發表名為SIMA（Scalable Instructable Multiworld Agent）的AI智能體，它可以理解廣泛的3D遊戲世界，並且能夠像人類一樣遵循自然語言指令在各類3D遊戲世界中執行超過600多種任務。強大的自然語言理解和遷移學習的能力，讓不不少研究者將SIMA的出現視為「智能體的ChatGPT時刻」。

DeepMind在技術報告中詳細闡述了SIMA的基本原理及技術路徑，將其定義為一種在多重3D虛擬世界中可擴展、可指導的通用遊戲智能體。 DeepMind團隊選取了9款當下流行的3D網路遊戲和4個基於Unity引擎製作的3D場景作為SIMA智能體的訓練環境，並從遊戲中收集了大量人類玩家的行為和操作數據，用以訓練智能體。在具體訓練的過程中，智能體會不斷觀察學習螢幕中的遊戲圖像訊息，並將其與玩家在遊戲中的各類操作指令結合起來，隨後實現透過鍵盤和滑鼠輸出，來控制遊戲中的角色執行各種操作[3]。

圖1 SIMA智能體專案概述

SIMA計畫是DeepMind團隊在通用人工智慧（AGI）研究領域的一個重要里程碑，從圍棋人工智慧AlphaGO和AlphaZero，到基於遊戲《星海爭霸2》的AlphaStar，再到如今基於大語言模型的SIMA，DeepMind團隊一直在基於遊戲環境進行通用智能體的測試和研究，在DeepMind看來，智能體在遊戲環境中訓練出的決策和行動能力，有望能夠遷移到現實世界的場景中，為孵化通用人工智能提供新思路和新實踐。

早在SIMA發布之前，業界已經存在著多個通用遊戲智能體研究項目，其中比較有代表性的工作有兩個，分別是由DeepMind發布的Gato，以及由英偉達發布的Minedojo。

Gato由DeepMind團隊於2022年11月發布，可遊玩雅達利系列遊戲（Atari Games），並可操控真實的機器人手臂堆疊積木。 Gato使用了類GPT的大語言模型架構，其訓練材料包括圖像、文字、機械臂關節資料以及其他多模態資料集（multimodal dataset）[4]。微軟在2023年3月的研究中指出，Gato這類融合了多模態資訊的大模型，極有可能誕生出初期的智能[5]。

圖2 DeepMind 打造的Gato

與Gato類似的還有英偉達、加州理工學院（Caltech）和史丹佛（Stanford）等研究機構基於《我的世界》遊戲共同打造的智能體MineDojo。 Minedojo將《我的世界》遊戲的玩家影片（YouTube）、百科（Wiki）和用戶社群（Reddit）的資訊作為訓練材料，訓練出一個能夠在《我的世界》遊戲中根據文字提示訊息，完成各種不同任務的通用智能體。 Minedojo不僅能夠完成一些簡單的程式化任務（programmatic tasks），還可以根據簡單描述完成一系列創造任務（creative tasks），例如根據描述建造一個圖書館等[6]。

圖3 Minedojo 能力模型

Gato和Minedojo這兩項工作分別對應著人工智慧研究中的兩類不同思路：解決足夠的任務或解決一個足夠複雜的任務。但上述兩項研究也存在一定限制，例如Minedojo只是針對特定遊戲類的專用智能，只能在單一遊戲中完成各類任務，並不具備遷移學習的能力；Gato雖然具備一定遷移學習能力，但其主要應用環境都是一些2D遊戲，而非3D遊戲環境，與現實世界場景差距較大。

目前，基於遊戲環境訓練通用AI Agent已經成為業界共識。在TED AI 2023演講上，英偉達高級科學家Jim Fan 提出了基礎模型（Foundation Agent）概念，認為AI研究的下一個前沿將是塑造一個可以在虛擬世界和現實世界中泛化，掌握廣泛技能，控制許多身體，並能夠泛化到多個環境中“基礎模型”，而這個模型的訓練，同樣離不開遊戲環境[7]。在國內，騰訊也主導建構起AI多智能體與複雜決策開放研究平台－開悟，依托騰訊AI Lab與《王者榮耀》在演算法、算力、實驗場景的核心優勢，為學術研究人員及演算法開發者提供國內領先的應用探索平台。

能力新突破：

SIMA實作大語言模型

與AI Agent訓練的有效融合

SIMA的出現，將大語言模型與智能體訓練結合，實現了AI智能體決策能力和泛化的突破。 SIMA不僅能較好地理解各種3D遊戲環境，還能像人類一樣按照自然語言指令在各種3D遊戲世界中執行各類任務，並且在決策效率與能力上遠超其他智能體，具備了與人類相近的決策能力[8]。 DeepMind 創辦人及CEO德米斯‧哈薩比斯（Demis Hassabis）在訪談中更是直言，「將大語言模型、AI智能體訓練與遊戲環境結合的這個領域，有著巨大的發展前景，DeepMind未來將持續加大該領域的研究投入[9]。」整體來看，與其他SIMA的特徵和突破主要體現在以下幾個方面：

第一，SIMA使用遊戲環境進行訓練，但更重視智能體行為與接收指令的一致性。在DeepMind團隊看來，「遊戲是人工智慧(AI) 系統的重要試驗場，與現實世界一樣，遊戲也是一種豐富的學習環境，具有反應靈敏的即時設定和不斷變化的目標。」 SIMA 與DeepMind團隊先前發布的遊戲智能體相比，相同之處在於其訓練過程中也觀察學習了大量人類玩家的行為數據，不同之處在於SIMA訓練的目的不在於擊敗人類玩家或在遊戲內取得高分，而是為了學習在各種遊戲環境中遵從人類發出的自然語言指令，並在遊戲環境中作出與指令一致的行為。

第二，SIMA將大語言模型與智能體訓練結合，並採用統一且人性化的互動介面。「語言和環境的學習是相輔相成的，透過學習自然語言，能夠提升智能體對於通用表徵和抽象概念的理解能力，提高學習效率。」相較於之前各種基於遊戲環境的智能體，SIMA在訓練中引入了大語言模型，整個訓練過程都遵循語言優先的規則，所有的訓練行為都由自然語言直接驅動。也就是說，SIMA 既不需要存取遊戲的原始碼，也不需要自訂的API。它只需要兩個輸入：螢幕上的圖像訊息，以及使用者提供的自然語言指令，即可使用鍵盤和滑鼠控制遊戲中的角色執行這些指令。在具體互動方式上，SIMA採用了統一且人性化的互動介面，人類可以直接呼叫此互動介面向SIMA發出自然語言指令（如下圖4）。

圖4 SIMA智能體架構

第三，SIMA擁有良好的泛化能力，能夠在不同虛擬場景中維持較高能力水準。根據DeepMind團隊目前公佈數據，SIMA已經透過600項基礎技能進行評估，涵蓋導航（例如左轉）、物件互動（爬梯子）和選單使用（開啟地圖）等，並且在多個遊戲環境中都表現出了高於同類智能體的性能水準。 DeepMind研究人員評估了SIMA 按照指令完成近1500 個具體遊戲內（in-game）任務的能力，其中部分採用了人類評估，結果顯示無論在哪種遊戲環境中，SIMA的表現都遠超同類型智能體（如圖5）。

圖5 多個智能體在不同環境下的效能對比

應用新場景：

AI助力遊戲創作

提升內容創作效能

遊戲成為打造通用AI Agent的試驗場和孵化器，不斷推動決策AI 技術的更新迭代。同時，伴隨著以Stable Diffusion、Transformer等生成式AI技術的成熟，AI技術也開始反向助力遊戲以及更廣泛的文化產業的內容創作，越來越多的從業人員能夠以更低成本生成圖片、文字、影音、NPC等數位資產，提升產品研發效能，進一步降低互動內容的製作門檻。

在應用層面，生成式AI模型已成為遊戲開發者的強大助手。《2024 Unity 遊戲業報告》數據顯示，在使用AI技術之後，有71%遊戲工作室表示其研發和營運效能得到了提升，這種效率的提升不僅體現在賦能單一內容創作者方面，也體現在能夠有效降低不同環節工作者的溝通成本方面。

在遊戲內容的生產側，生成式AI已被廣泛應用於文字生成、2D美術創作、程式碼產生與偵測、關卡設計生成等環節。在AI工具介入遊戲美術工作流程之前，遊戲美術工作者完成一張高品質的插畫圖的時間大概在一週左右，在使用Stable Diffusion等生成式AI工具後，能將一張高品質插畫圖的生成時間縮短至1天。

圖6 基於AIGC工具的插畫人物繪製過程

在降低不同類型工作者溝通成本方面，生成式AI也有著龐大的應用空間。例如在遊戲製作過程中，尤其是在對遊戲美術風格進行定調和選型時，遊戲規劃和美術工作者之間的溝通往往需要耗費大量的時間成本。生成式AI工具的介入，能夠幫助策劃者快速將創意落地並呈現，大幅降低溝通成本。

在工具層面，隨著生成式AI對遊戲研發效能的提升，各類遊戲公司也開始將其融入各自內容製作工具中。遊戲晶片公司英偉達於2023年6月發布了面向遊戲開發者的AI工具平台NVIDIA ACE for Games，讓遊戲開發者可以在遊戲中構建和部署定制化的語音、對話和動畫等AI模型，極大提升遊戲內容生產和製作效率；在GDC 2024上，NVIDIA和Inworld 共同公佈了一項全新的數位人技術Covert Protocol，基於該技術塑造的遊戲NPC能夠與玩家進行即時交互，並且能夠基於互動內容，即時生成遊戲玩法[10]。

圖7 NVIDIA發布的Covert Protocol技術demo

遊戲引擎公司Unity和Unreal也相繼發布基於生成式AI的新產品。 Unity於2023年7月發表兩款以人工智慧技術為基礎的新產品：Sentis 和Muse，據悉兩款產品可將傳統內容創作的效率提升十倍；Unreal也在自身引擎中整合了大量應用了AIGC工具，如數位人製作工具Metahuman creator，嘗試以人工智慧技術加速創造高品質的角色及大規模場景生成效率。

遊戲製作公司也全面擁抱AI技術，用AI賦能內容製作工具，不斷提升內容研發效率。以騰訊為例，騰訊AI Lab 在GDC 2024 重磅發布了自研遊戲全生命週期AI引擎“GiiNEX”，該引擎借助騰訊自研生成式AI和決策AI模型，面向AI驅動的NPC、場景製作、內容生成等領域，可提供包含3D圖形、動畫、城市及音樂等多種AIGC能力。在GiiNEX引擎輔助下，原本需要5天才能完成的城市建模任務，現在只需25分鐘即可完成，效率提升達百倍[11]。

圖8 騰訊遊戲AI引擎GiiNEX架構圖

結語

自1956年達特茅斯會議開始，在人工智慧領域，早期的電腦科學家將AI定義為“使一部機器的反應方式像一個人在行動時所依據的智能”[12]，後來幾乎所有的人工智慧研究都循著「模擬」人類智慧的路徑，試圖打造出能聽、能看、能說、能思考、能學習、能行動的人工智慧，提升其感知、認知現實世界與遂行決策行動的能力。

時至今日，人工智慧研究仍遵循著模擬人類的路徑和目標。如果說以ChatGPT、Sora等代表的生成式AI大模型，提升了人工智慧對事物的「感知」與「認知」能力，完成了邁向通用人工智慧的第一步。那麼能夠讓人工智慧在複雜、多樣的遊戲環境中透過機器學習做出合適的「選擇」的決策AI模型，則讓人工智慧具備了「行動」能力，能夠根據自身和環境資訊進行自主決策，實現了邁向通用人工智慧至關重要的一步。

儘管當下的人工智慧研究距離實現AGI還有相當長的路要走，但生成式AI和決策AI的結合，無疑為實現AGI開闢了新的可能性，而遊戲作為訓練AI的試驗場，在通用人工智慧研究中的角色也愈發重要。我們看到，基於大語言模型和AI智能體的結合，已經能夠塑造出像SIMA這樣的通用遊戲智能體，不僅能在給定環境下做出有效決策，還能不斷學習和適應未知環境，並根據自然語言指令完成各類複雜任務，表現出類人智能。未來，隨著訓練環境的不斷增加，通用遊戲智能體或將具備對更複雜、更高級語言指令的理解和能力，人們有望創造出更為靈活、適應性更強、更接近人類智能的AI系統。我們也期待，有一天，通用智能體能夠通過遊戲這個小世界的測試，順利走向現實大世界的廣闊舞台，服務人類社會的千行百業。

感謝曹建峰、劉林、王鵬等在本文寫作過程中給予的指導！

遊戲裡的智慧革命：AI如何與遊戲共創未來？

技術試驗場：

能力新突破：

應用新場景：

結語

Strategy支持者出售股票，稱Michael Saylor 在稀釋問題上撒謊

分析：比特幣30天期權Delta傾斜度飆升，表明市場處於極度恐慌中

比特幣價格接近130,000美元，分析師認為RTX、HBAR和XLM在BTC翻倍前可提供50倍收益

以太坊Microstrategy的結構性風險分析：基於最優淨資產價值

預計2050年XRP價格，XRPL每年銷毀98.5萬XRP

知名資管公司Point72與ExodusPoint披露持有Alt5 Sigma股份

當ETH找到新的支持級別時值得購買的山寨幣冷軟件和Shiba INU成為安全避風港

比特幣預測：哈佛經濟學家羅戈夫對驚人現象的深思

遊戲裡的智慧革命：AI如何與遊戲共創未來？

技術試驗場：

能力新突破：

應用新場景：

結語

Related Posts