AMMO:進入多Agent時代,走向「人機共生網絡」


AMMO 項目旨在通過多代理框架和人類反饋機制,促進數十億AI 代理與人類的平等共存。隨著人工智能技術的迅猛發展,人機關係的重新評估顯得尤為重要。在此背景下,AMMO 圍繞對齊理念,致力於提升AI 技術的公共效益和人文價值,確保其發展不會失控。

AMMO 團隊由前Google、DeepMind 和Meta 的AI專家組成,已獲得250 萬美元融資。該平台採用多代理強化學習(RLHF)技術,為AI 代理提供一個交互和自我優化的生態系統,其中AI 代理能夠根據用戶反饋不斷適應和進化。

AMMO 的獨特之處在於其MetaSpace 結構,允許AI 代理與人類深入互動,並在此過程中實現自我迭代。此外,項目中的Fakers AI 功能相當於Web3 市場的小紅書,通過實時反饋學習和優化,提升內容整合能力,從而滿足用戶需求。

總體而言,AMMO 不僅展示了AI 與Web3 融合的創新實踐,更在構建人機共生的未來中,提供了一個對齊主義的願景,推動技術與社會價值的協調發展。

AMMO 從對齊視角出發,讓數十億AI 代理和人類平等共存。

撰文:Pzai,Foresight News

在邁向賽博年代的當下,AI 的發展在為所有人帶來生產力飛速提升的同時,也正在為我們提出一個問題:當AI 正在向著人類的領域逐漸深入,人類是否需要重新評估人機關係?

在這一大背景之下,對AI 技術的政治觀點逐漸派別林立。在充滿懷疑論點的「AI 危機派」和「加速主義(e/acc)派」鬧得不可開交時,「對齊派」主張提升對技術的公共效益、倫理討論、人文價值的重視,在AI 研發和迭代過程中引入人文判斷,確保AI 技術不會失控。

而在AI Agent 大行其道的當下,伴隨著從單一大模型迭代到多模態感知和多AI 交互範式的路線,AI 的「對齊之問」似乎正在被越來越多人所重視。

在2 月20 日,由前Google、DeepMind 和Meta 技術負責人聯合推出的AMMO 獲得了由Amber Group 領投的250 萬美元種子輪融資。從團隊背景來看,AMMO 匯聚了來自各大科技巨頭的AI 專家,聯合創始人兼首席執行官David Huang 在Google 工作了10 年,其中包括7 年領導移動領域的AI 計劃和戰略服務。另一位創始人Diego Hong 畢業於牛津大學,曾在Meta 領導第一代AI agent 框架工作。團隊內部匯聚來自DeepMind, Google, Apple 的頂尖AI 人才,甚至包括ACM-ICPC 世界冠軍。

該項目從對齊視角出發,旨在通過多代理框架和來自人類反饋的強化學習(RLHF)將當前的互聯網轉變為「人與AI 共生網絡」,讓數十億AI 代理和人類平等共存,並讓AI 根據人類集體反饋的一致性共同進化。

RL Gyms:多Agents 強化學習

在人工智能與機器學習領域,強化學習一直是備受矚目的研究方向。而AMMO 的RL Gyms 為多Agents 強化學習的研究與應用提供了堅實的技術支撐。

區別於傳統的單代理強化學習,多Agents 強化學習聚焦於多個代理(Multi-Agent)在同一環境下相互作用、共同學習並做出決策的過程。這一過程中,代理之間的關係錯綜複雜,既可能需要攜手協作完成共同目標,也可能在競爭中彼此博弈。例如在物流配送場景中,多輛配送車作為代理,需要協調路線、規劃配送順序,以實現整體配送效率的最大化;而在競技類游戲中,不同玩家控制的角色代理則要相互競爭,爭取勝利。

RL Gym 最早由OpenAI 提出,為AI 進化提供強大的模擬仿真環境。開發者可以通過自定義一系列關鍵函數以構建高度適配研究需求或應用場景的強化學習環境,如經濟模擬,紅藍對戰等設定。這些關鍵函數包括環境狀態轉換規則的定義,代理環境感知和行動執行的協議,獎勵函數的定義等。只要能精確定義以上函數,RL Gym 便能模擬各類複雜場景,進而為AI 在其中的進化打好基礎。

對於AMMO 的開發者而言,RL Gyms 為AI 代理提供了一個豐富真實的雙邊市場模擬器。 AI 既可作為內容和服務供給方,為用戶提供高質量富有吸引力的內容;同時AI 又可作為人類用戶分身,充當消費方的角色,以用戶價值為中心,為用戶精選梳理高質量內容。這樣動態豐富的雙邊博弈,刺激雙方不斷進化自身策略,滿足用戶日益增長的內容服務消費需求。

而受Anthropic 的Constitutional AI 的啟發,AMMO 創建了透明的治理框架以指導代理在平台內的決策。該結構通過大量的人類反饋循環不斷更新,確保代理的行為與人類的集體意圖保持一致。通過從平台一開始就將對齊機制植根於此架構中,AMMO 確保其代理與社會不斷變化的價值觀和優先事項一起發展,只因在對齊主義的指導下,「多代理系統的中心是人類」。

MetaSpace:構建Agents 的「世界」

「每個心理主體本身只能做一些根本不需要頭腦或思想的簡單事情。然而,當我們以某些非常特殊的方式將這些代理加入社會時,這會帶來真正的智能。」「人工智能之父」馬文·明斯基在他的著作《心靈社會》中這樣描述。對於AI 代理而言,更多的迭代對應需要更多的輸入,而在Agents 與其他Agents 乃至人類過程交互的過程中,需要構建足夠堅實的框架以推動AI 的有序迭代。

與Ocean Protocol 主要聚焦於數據的流通與交易、SingularityNET 打造去中心化的AI 市場等項目不同的是,AMMO 的獨特之處在於專注於構建AI 進化環境。它不僅僅能解決模型能力提升或者單一的交易問題,而且能為AI 的持續發展和進化提供土壤。在多智能體技術方面,與Swarms 等AI Agent 框架相比,AMMO 不僅具備多智能體間高效協作的能力,更重要的是它著力於打造一個完整的多智能體世界。

在AMMO 的主體架構中,團隊打造了一個獨特且功能強大的可組合高維虛擬宇宙——MetaSpace。具備強自主性的AI 代理不再孤立運作,而與其他Agents 乃至人類在MetaSpace 中展開深度互動。

MetaSpace 擁有一系列垂直深入的子空間,這些子空間成為了AI 代理不斷進化的關鍵場所。在與人類的互動進程中,自主AI 代理(Goal Buddy)持續調整自身,充分發揮自身的適應能力,並逐步實現與人類行為和需求的深度對齊。而人類用戶的AI 分身(User Buddy)同樣在這個空間內與人類攜手共進,幫人類學習、決策、投資、探索和交友,在持續的交互中進化。

這種多Agent 在線學習模式能夠將人類紛繁複雜的需求和多樣化的興趣,具象化為數量龐大的Agents。這些Agents 並非一成不變,它們在MetaSpace 內不斷進行迭代,使得AI 代理在AMMO 中不再僅僅依賴於模型能力的提升,而是通過與人類、與環境的交互,實現自我優化。可以說,MetaSpace 為Agents 打開了通往世界信息的大門。

Fakers AI

在AMMO 的子空間中,首個子空間項目Fakers AI 被定位為「Web3 市場的小紅書」。在這個應用裡,多個AI 代理協同工作,為用戶提供豐富功能。它們不僅能實時收集新聞資訊、市場動態,分析鏈上數據,洞察市場情緒,還具備一項關鍵能力—— 動態學習人類交互反饋。

當用戶與AI 代理互動時,無論是瀏覽內容、提問還是發表評論,AI 代理都會捕捉這些反饋信息,通過複雜算法不斷優化自身,實現與人類價值觀、偏好、興趣的實時對齊。基於這種能力,這些AI 代理在內容整合時,能更精準地篩选和組合信息,為用戶提供兼具及時性和準確性的內容,滿足用戶在Web3 市場的多樣化需求。

在應用內的Ticker Battle 中,4 個AI Agents 共同組成了強大的自動化工作流,每個Agent 分別負責統籌規劃、鏈上數據分析、社區觀點分析、總結成文等功能,並可以結合人類反應進行自我迭代。這樣的內容產出模式為用戶提供了發現AI 創作和社區推動的為透明度而設計的內容。而對於AI 而言,這樣也無形地助推了他們的影響力。

從AI 到Web3 的創新實踐

在AI 與Web3 融合的浪潮中,AMMO 作為一個創新的平台,正逐漸嶄露頭角。而Amber Group, Samsung Next, Dispersion 和OpenSpace 對AMMO 的投資,不僅是對其技術實力的認可,更是對其在未來市場潛力的看好。

AMMO 的架構的核心是將內容摘要和審核方面的尖端AI 技術與強大、零信任、社區主導的治理相結合。在短期內,AMMO 的原型將使創作者和日常用戶能夠通過多個AI 代理(每個代理都專門從事編輯或腳本編寫等任務)製作和微調內容,同時策略代理執行指導方針。

在創新模式方面,AMMO 利用其獨特的多智能體系統,將不同的AI 代理分配到內容創作、質量把控、政策執行等各個環節。通過強化學習技術和引入人類反饋機制,AMMO 不斷優化AI 驅動的內容創作過程,提升內容質量。

而基於加密的激勵系統可使得AMMO 將價值直接重新分配給貢獻者。提供反饋、與內容互動或以其他方式幫助優化代理的用戶將獲得按比例的激勵,創造一個自我維持的反饋循環:激勵性參與推動了更好的代理輸出,並反作用於網絡及其貢獻者。

綜上所述,在AI 時代多代理化的趨勢下,AMMO 為我們創造了對齊主義在AI 發展中的願景及其實現,構建一個與人類對齊的百億人與AI 的共生世界。似乎在現在的AI 領域,對齊本身不管是對於人類還是AI,最終協調同步的發展都是對各方有利的結果,而我們也正在期待這樣的共處未來。

Total
0
Shares
Related Posts