作者:jolestar 來源:X,@jolestar
上週倒騰了一下AI Agent,前天參加了ai16z 在北京的活動,想看看AI Agent 現在實際上能幹啥,思考一下它未來能幹啥。
AI Agent 的現況讓我想起那張梗圖,自動販賣機裡面藏了個人。大家已經想像中的AI Agent 已經開始擁有自主意識了,但實際上的AI Agent 裡面其實藏了個開發者。 (這裡大家腦補畫面,我嘗試讓AI 產生這張圖片,發現AI 無法理解「藏」)
AI Agent 框架的基本運作方式
AI Agent 框架目前扮演一個黏合劑的作用,把client(Twitter,Discord,Telegram 等) 和各種插件(各鍊等)黏合起來,然後框架提供一個基礎庫(記憶存儲,會話隔離,上下文生成)等,後面對接各種AI 平台介面。
AI Agent 框架如何和應用以及業務場景結合
從去年AI 火熱以來,各種平台和工具湧現,最關鍵就是要解決一個問題,AI 如何和應用結合。有AI 平台嘗試提供插件的方式,有的打造工作流程模型,也有傳統應用在應用程式內嵌入AI 的方式。但這裡面的關鍵是: 1. 應用的互動入口在哪裡? 2. AI 如何和現有業務邏輯結合。
各AI 平台提供給使用者的應用程式的互動入口都是一個類似聊天視窗的對話框,顯然大家都認為和AI 應用的互動方式應該是一種「擬人」的方式。而這點上AI Agent 聰明之處在於它直接連接了所有的開放IM 以及社交系統,顯然比新搞一個更容易接受。
AI 如何和現有業務邏輯結合。 AI Agent 提供的方案是讓開發者把AI 的決策融入商業場景中。程式語言需要確定性,if 的條件只能是true 或false,無法處理模糊的業務邏輯。而透過AI 可以將複雜的邏輯轉換成精確的條件,然後就可以無縫融入業務場景中去了。
例如群組內回覆訊息這個功能,傳統的IM Bot 需要透過一些明確的訊息指令才能觸發,而透過AI 可以實作一個方法shouldReplyMessage,給他上下文,它回傳true or false。
AI 在業務邏輯場景中的作用主要是:
1. “意圖”發現:透過提示詞中的說明,讓AI 根據上下文發現用戶文本訊息中的“意圖”,把意圖映射到具體的代碼。
2. 協助決策:透過AI 將模糊的複雜條件轉換成確定的true/false 或枚舉類型,然後結合到業務邏輯中去。
看到這裡,很多人可能對AI Agent 要失望了,很多人以為的AI Agent 就是教一下AI 它就啥都會了。實際上因為大模型的上下文限制的難題,沒辦法(至少當前)打造一個萬能的AI,讓它可以做任何事情。但好消息是程式設計師不用擔心失業了,AI 後面還是需要藏著大量的程式設計師,還需要有人來堆if else,但關鍵的區別是程式可以處理的業務邊界在擴展。
兩種AI Agent
在活動上,問了@shawmakesmagic 一個問題,市場對AI Agent 有兩種期望,1. AI Agent 自己扮演一個角色,有自己的 ID,品牌,給用戶提供服務。 2. 用戶有個人AI Agent,相當於個人助手,可以協助用戶處理一些業務。這兩種AI Agent 哪一種會比較受歡迎?他覺得兩個方向都會不錯,也有可能結合。
現在市面上大家主要探索的還是第一個方向。這個方向類似服務AI Agent 化,未來可能沒有App 介面了,App 都AI Agent 化了,擬人化了。而第二個方向則是應用客戶端的Agent 化,未來的應用客戶端會是助手Agent 的一個插件,應用本地資料變成了Agent 記憶庫的一部分,同時這個插件也負責和雲端的服務Agent 溝通。而這是一種新的應用架構模式,會改變整個基礎架構。
AI Agent 對基礎設施的需求
1. 基礎設施要實現無進入門檻(Permissionless),不然AI Agent 會被各種防攻擊策略限制,服務應該用經濟成本的方式(Gas)防攻擊。這點上開放程度比較差的平台會面臨比較大的衝擊,當年Web2 初期的開放平台熱會重新點燃。
2. AI Agent 需要能操作資金付費,用以解決上面的問題。
也就是說,未來的服務,無論是否是基於區塊鏈的,都需要支援Crypto 的私鑰模式的身份驗證以及基於Crypto 的支付。
AI Agent 和鏈的結合
除了上述的兩點,AI Agent 如何和鏈結合是大家正在探索的一個方向。在活動上,和@Mikkke_acc 聊它正在搞的focEliza。前面提到的兩種AI Agent,至少第一種是需要鏈提供的運作或驗證環境。因為一旦一個AI Agent 對外提供服務,就會有信任問題,它所扮演的角色實際上和智能合約一樣。
關於「智能合約」這個名字當年有個爭議,它只是一段代碼,哪裡「智能」了,AI 可以讓智能合約名副其實。難題是智能合約環境中如何呼叫AI 介面。如果說讓大模型運行在一個可驗證的環境中這條路還比較遠,用類似Oracle 的方案是更切實可行的路徑。
而圍繞著AI Agent 會衍生出非常多的需求,AI Agent 的公共知識又是如何獲得? AI Agent 如何對事實進行判定? AI Agent 如何辨識不同平台上的同一個使用者?智能合約中的「記憶」如何儲存?如果我有多個設備,各裝了一個AI Agent,它們如何分享記憶?
你會發現原來Web3 中搞過的“數據上鍊”,關係上鍊,DID,P2P 網路等等,都有新的意義和場景。
結語
復用我21 年一次關於AI 和區塊鏈分享的結語,對AI 更友善的互聯網,也是對人類更友善的互聯網。那時還只是個腦洞,但現在未來已來。