作者:Zeke,YBB Capital Researcher
一、始於注意力的喜新厭舊
在過去的一年裡,由於應用層敘事斷檔,無法匹配基礎設施爆發的速度,加密領域逐漸變成了一場爭奪注意力資源的遊戲。從Silly Dragon 到Goat,從Pump.fun 到Clanker,注意力的喜新厭舊讓這場爭奪戰一路內卷。以最俗套的吸引眼球變現為開端,迅速換代至注意力需求者和供給者統一的平台模式,再到矽基生物成為新的內容供給者。 Meme Coin 千奇百怪的載體裡終於出現了一個能讓散戶與VC 達成共識的存在:AI Agent。
注意力最終是一種零和博弈,不過投機確實也可以促使事物野蠻生長。我們在關於UNI 的文章中曾回顧過區塊鏈上個黃金時代的開端,DeFi 極速增長的起因源自Compound Finance 開啟的LP 挖礦時代,在Apy 上千甚至上萬的各種礦池中進進出是那個時期鏈上最原始的博弈方式,雖然最後的情況是各種礦池崩塌一地雞毛。但黃金礦工的瘋狂湧入確實為區塊鏈留下了前所未有的流動性,DeFi 最終也跳脫出純粹的投機形成了一個成熟的賽道,在支付、交易、套利、質押等方方面面滿足著用戶的金融需求。而AI Agent 在現階段也正經歷這個野蠻階段,我們正在探索的是Crypto 可以如何更好的去融合AI,並最終促使應用層登上新的高地。
二、智能體如何自主
我們在前一篇文章中簡單介紹過關於AI Meme 的起源:Truth Terminal,以及對AI Agent 未來的展望,本文聚焦的首先是AI Agent 本身。
我們首先從AI Agent 的定義說起,Agent 在AI 領域中是一個較為古老但定義不明確的詞彙,其主要強調的是Autonomous(自主性),即任何能夠通過感知環境並做出反射的AI 都可稱為Agent。在現今的定義中AI Agent 更接近智能體,即給大模型設定一套模仿人類決策的系統,在學術界這套系統被視為是最有希望通往AGI(通用人工智慧)的方式。
在早期的GPT 版本中,我們明顯能感知到大模型很像人,但在回答許多複雜問題時大模型卻都只能給出一些似是而非的答案。本質原因是當時的大模型是基於機率而非因果,其次它缺乏人類所具備的使用工具、記憶、規劃等能力,而AI Agent 可以補齊這些缺陷。所以用一個公式來概括,AI Agent(智能體)=LLM(大模型)+ Planning(規劃)+Memory(記憶)+ Tools(工具)。
基於提示詞(Prompt)的大模型更像是靜態的人,我們輸入的時候,它才有生命,智能體的目標則是更真實的人。現如今圈內的智能體主要是基於Meta 開源的Llama 70b 或405b 版本(兩者參數不同)的微調模型,具備記憶及使用API 接入工具的能力,在其他方面則可能需要人類的幫助或輸入(包括與其它智能體的交互協作),所以我們能看到如今圈內主要的智能體還是以KOL 的形式存在於社交網絡上。要讓智能體更像人,需要接取規劃和行動能力,而規劃中的子項思維鏈尤其關鍵。
三、思維鏈(Chain of Thought, CoT)
思維鏈(Chain of Thought, CoT)的概念最早出現在2022 年Google 發布的論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中,論文指出可以透過產生一系列中間推理步驟來增強模型的推理能力,幫助模型更好地理解和解決複雜問題。
一個典型的CoT Prompt 包含三個部分:指令明確的任務描述邏輯依據支持任務解決的理論基礎或原理示例具體的解決方案展示這種結構化的方式有助於模型理解任務要求,透過邏輯推理逐步接近答案,從而提高了解決問題的效率和準確性。 CoT 特別適合需要深入分析和多步驟推理的任務,如數學問題求解、專案報告撰寫等簡單任務,CoT 可能不會帶來明顯優勢,但對複雜任務,它能顯著提高模型的表現,透過逐步解決策略減少錯誤率,提高任務完成的品質。
在建構AI Agent 時,CoT 起到了關鍵作用,AI Agent 需要理解接收到的信息並據此做出合理決策,CoT 透過提供有序的思考方式,幫助Agent 有效處理和分析輸入訊息,將解析結果轉化為具體行動指南這種方法不僅增強了Agent 決策的可靠性和效率,還提高了決策過程的透明度,使Agent 的行為更加可預測和可追蹤CoT 透過將任務分解為多個小步驟,有助於Agent細緻考慮每個決策點,減少因資訊過載而導致的錯誤決策,CoT 使得Agent 的決策過程更加透明,使用者更容易理解Agent 的決策依據。在與環境互動中,CoT 讓Agent 不斷學習新訊息,調整行為策略。
CoT 作為一種有效的策略,不僅提升了大型語言模型的推理能力,還在建立更聰明、可靠的AI Agent 方面發揮了重要作用。透過利用CoT,研究人員和開發者能夠創造出更適應複雜環境、具備高度自主性的智慧系統。 CoT 在實際應用中展示了其獨特的優勢,特別是在處理複雜任務時,透過將任務分解為一系列小步驟,不僅提高了任務解決的準確性,還增強了模型的可解釋性和可控性。這種逐步解決問題的方法,可以大幅降低在面對複雜任務時,因資訊過多或過於複雜,而導致的錯誤決策。同時,這種方法也提高了整個解決方案的可追蹤性和可驗證性。
CoT 的核心功能在於將計劃、行動與觀察相互結合,彌補推理與行動之間的差距。這種思考模式允許AI Agent 在預測可能遇到的異常情況時制定有效的對策,以及在與外部環境互動的同時累積新資訊、驗證預先設定的預測,提供新的推理依據。 CoT 就像是一個強大的精確度和穩定性引擎,幫助AI Agent 在複雜環境中保持高效的工作效率。
四、正確的偽需求
Crypto 究竟要與AI 技術堆疊的那些面向進行結合?去年的文章中我認為算力與數據的去中心化是幫助小型企業和個人開發者節省成本的關鍵步驟,而在今年Coinbase 所整理的Crypto x AI 細分賽道中,我們看到了更詳細的劃分:
(1)計算層(指專注於提供AI 開發者圖形處理單元(GPU)資源的網路);
(2)資料層(指支援AI 資料管道去中心化存取、編排和驗證的網路);
(3)中間件層(指支援AI 模型或智能體的開發、部署和託管的平台或網路);
(4)應用層(指利用鏈上AI 機制的面向使用者的產品,無論是B2B 或B2C)。
在這四個分割層中,每一層都有宏大的願景,其目標總結而言都是為了對抗矽谷巨頭霸占網路的下個時代。正如我去年所說的我們真的要接受矽谷巨頭獨家控制算力、數據?在他們壟斷下的閉源大模型其內部又是一個黑盒,科學作為當今人類最信仰的宗教,未來大模型所回答的每句話都會被很大一部分人視為真理,但這個真理又該如何驗證?根據矽谷巨頭的設想,智能體最終所擁有的權限將超乎想像,例如擁有你錢包的支付權,使用終端的權利,如何保證人無惡念?
去中心化是唯一的答案,但有的時候我們是否需要合理的去綜合考慮,這些宏大願景的買單者有多少?在過往我們可以不考慮商業閉環的情況下,透過Token 去彌補理想化帶來的誤差。而現如今的情勢則非常嚴峻,Crypto x AI 更需結合現實情況再做設計,例如算力層在性能損失且不穩定的情況下供給兩端到底要怎麼平衡?以實現匹配中心化雲端的競爭力。資料層的專案究竟會有多少真實用戶,如何檢驗所提供資料的真實有效性,又有什麼樣的客戶需要這些資料?其餘二層皆是同理,在這個時代我們不需要那麼多看似正確的偽需求。
五、Meme 跑出了SocialFi
正如我在第一段所說的Meme 已經用超極速的方式,走出了符合Web3 的SocialFi 形態。 Friend.tech 是打響本輪社交應用第一槍的Dapp,但無奈敗在急於求成的Token 設計。 Pump.fun 則驗證了純平台化的可行性,不做任何Token,不做任何規則。注意力的需求者和供給者統一,你可以在平台上發梗圖、做直播、發幣、留言、交易,一切都是自由的,Pump.fun 只收取服務費。這與如今YouTube,Ins 等社群媒體的注意力經濟模式基本一致,只不過收費對像不同,玩法上Pupm.fun 則更Web3。
Base 的Clanker 則是集大成者,得益於生態親自操刀的一體化生態,Base 有自己的社交Dapp 作為輔助,形成完整的內部閉環。智能體Meme 是Meme Coin 的2.0 形態,人總是圖新鮮,而Pump.fun 如今恰好又處在風口浪尖處,從趨勢上來看矽基生物的胡思亂想取代碳基生物的低俗梗只是時間問題。
我已經第無數次提到了Base,只是每次提及的內容不同,從時間線上看Base 從來都不是先發者,但卻總是贏家。
六、智能體還能是什麼?
從務實的角度講,智能體在未來很長一段時間內是不可能去中心化的,以傳統AI 領域對智能體的搭建來看,它不是簡單的推理過程去中心化和開源就能解決的問題,它需要連接各種API 去存取Web2 的內容,它的運作成本很昂貴,思維鏈的設計及多智能體的協作通常還是依賴一個人類作為媒介。我們會經歷很漫長的一個過渡期,直到出現一個適當的融合型態,或許就像UNI 一樣。但同上一篇文章一樣我依然覺得智能體將對我們產業形成很大的衝擊,正如Cex 在我們產業中的存在一樣,不正確但很重要。
史丹佛&微軟上月發出的《AI Agent 綜述》一文,大量描述了智能體在醫療業、智慧機器、虛擬世界的應用,而在這篇文章的附錄中已經有非常多GPT-4V 作為智能體參與進頂級3A 遊戲開發中的試驗案例。
不必太強求它與去中心化結合的速度,我更希望智能體首先補齊的拼圖是自下而上的能力與速度,我們有那麼多的敘事廢墟以及空白的元宇宙需要它填滿,在適當的階段我們再考慮如何讓它成為下一個UNI。