原文來源:琢磨事
圖片來源:由無界AI 生成
在開源大模型LLaMA 2會扮演類似Android的角色麼?一文中曾經提到:大模型落地的方式是系統型超級應用。但係統型超級應用有點像被杜撰出來的一個詞,所以這次從AI Agent的角度來更加具體的描述下它。 AI Agent非常關鍵,沒有它我們就無法擴展大模型的應用邊界,無法擴展邊界我們就無法完成大模型的成功商業化,無法成功商業化AI可能就會再虧損十年。人工智能如果僅止於現在看到的內容生成等幾項應用,就還是單薄的。能不能把價值傳遞到更多的場景,核心就看AI Agent,所以我們說AI Agent是大模型與場景間價值傳遞的橋樑。
大模型是甕中之腦
假如把人的腦子放到一個充滿營養液的罐子裡,讓它活下來,那這時候它可以有一個超級真實的虛幻世界,但卻不再能干涉現實。這是《黑客帝國》,《源代碼》這類電影很關鍵的一個預設。
現在的大模型就有點這意思。
它有一定智力並且擁有大量知識,但除了內容生成這類通用能力,在別的領域還不清楚它到底能幹什麼?經濟體系的主要部分是需要干涉現實的,所以大模型的這種智力優勢就需要一個管道,讓它流淌出去和各個領域相結合,然後才才能真正創造更大的經濟價值。
而真要和某個具體領域結合,孤立的大模型是不夠的,它既不知道這領域過去發生了什麼,也不知道正在發生什麼,甚至不知道自己要服務的對像是誰…
大模型內置的幾個常用的功能,相當於把領域相關的部分放到了模型的內部,比如內容生成,編寫代碼等。問題是現實世界的主要領域並不是這種孤立場景,而是和現實要進行實時結合,所以根本放不到大模型裡面去。
我們可以把日常要處理的場景做個分類:
一類是孤立的,斷續的場景。不管什麼時候只要給個要求,它就給你一個特定輸出,和時空內其它要素依賴不大,甚至地球毀不毀滅都和這個任務完成沒啥關係,比如:編程、下圍棋、內容生成等。這部分其實很適合大模型內置。有點像井打完了,什麼時候用水,打一桶就得了。
一類則是連續的,和周圍環境的變化鑲嵌在一起的的場景。這時候你如果不知道環境、歷史上漲和前置條件,不管你智商怎麼樣,你啥都乾不了。就好比工廠流水線在生產,突然扔一個博士過去,其實啥用也不頂。這有點像用水渠給水田灌水,水源通路都得整好,最終才有水。這部分沒法放大模型內部。
我們絕大多數場景,都是後一個,不管是外賣、打車、企業經營等,所以才有個說法叫世界萬事萬物是普遍關聯的。這也是過去的所謂專家系統,用用就掛了的核心原因。
甕中之腦解決前一個場景下的問題相對容易,最傻的方法就是定期升級一下,但單獨的甕中之腦解決不了後一個場景裡的問題。現實裡面,解決不了後一個問題就解決不了核心場景,解決不了核心場景就很可能再虧10年。
後一種場景的解決與否的關鍵在於AI Agent,所以我們說AI Agent是大模型與場景間價值傳遞的橋樑
AI Agent即係統型超級應用
AI Agent概念太新,資料太少,下面這張圖是OpenAI Lilian Wen個人博客上發的一張圖,被四處張貼。
就像人工智能這樣的概念也得被反复打磨才能相對精準一點。這圖能說明AI Agent的一些關鍵點,但也有相當的誤導性。 Agent的邊界畫窄了,內外要素被混雜在一起了。也不適合用Tools來囊括所有外部的工具依賴。對情境的感知以及據此的行動用工具囊括就混淆了它們的差別。
下面這種總括的圖更容易看出來Agent的角色(和上面Lilian Wen那個Agent定義已經不一樣的),但卻又錯過了關鍵要素,比如感知和行動到底是個啥。
這類描述再加上AutoGPT這些開源項目提供的各種接口定義,對於不是做這個的人很容易就把AI Agent理解成又一項純粹的技術,但其實並不是。從技術的角度看真要這類Agent是需要對領域、對環境建模,因此一部分是新技術,但更關鍵的是從應用上看,它要在一個場景下徹底搞定一個業務,它的含義和滴滴、美團外賣APP是一樣的。 (反映的正好是橋的屬性,兩頭看風景是不一樣的)
那我們到底應該怎麼理解AI Agent和它的特徵呢?
第一,可以重用通行定義,基於感知進行智能判斷並採取行動。 (陸奇的大模型世界觀說的也是這個)
Faiza Waseem,What is agent in ai ! Types of agents in artificial intelligence
為達成這目的需要和IoT、現有各種系統做深度結合,不可能是Lilian Wen上面那圖裡的簡單工具的概念。而感知範圍大小事實上也定義了AI Agent的範圍。
比如招聘場景要感知的就是公司最終需求崗位的描述和招聘平台上的候選人,行動則是要能與候選人溝通,能辦理入職等。
比如中央空調的場景感知的就是氣候、用量、當前溫度等,行動則是空調溫度控制等。
第二,要有價值序列的初始化。
這不是感知問題,比如什麼是對的,什麼是錯的,在關鍵衝突的時候那個更重要等,比如還是中央空調的場景,用電量是不是可以無限飆升,還是說到某個限度就必須停下來,再比如招聘的時候對一場危機的看法等。
這不是感知,而是原則,是絕對必須的輸入,但似乎很少被提及。
第三,三個核心輸入輸出上都要接受變化。
這是產品化帶來的衍生要求。
感知和行動的風格肯定要根據不同的公司要有微調,比如同樣是招聘的Agent,不可能期望用感知、行動和價值序列都固定的產品解決所有公司的問題。這種需求最終必會導致應用商店和標準化的API接口。只有這樣才能把大模型的通用能力投射出來。否則就有點像子彈是圓形,但槍管是方形的,互相耽誤。
第四,算法會是一組算法的組合。不可能就是大模型,其它模式識別類的算法估計一個也少不了。並且這些算法要中心化提供。這就會導致大模型、其它算法、領域模型、記憶、規劃能力形成一套新的內核。這種內核要有通用性,否則一個是不匹配大模型的通用能力,一個是你也沒法真的產品化並給人用。
大模型能力已經通用化了,再配上通用的結構,這種通用能力就能夠徹底發揮,相當於給甕中之腦加了一個終結者的身體。
把這些要素都體現出來AI Agent典型結構會這樣:
這圖是我原創,不一定對,轉載著名出處。
這是什麼呢?
這就是系統型超級應用,所以說AI Agent即係統型超級應用。
它解決具體問題所以是個應用,但具有通用性,而達成通用性的手段其實和過去的操作系統非常類似,並且以大模型為根基。
那這種Agent會有幾種?
從西部世界類的元宇宙Agent到具身智能全是Agent。
Agent會有很多種,但可以細分。
最基礎的和來的最快的應該是純數字,無場景或者場景極為單薄的AI Agent。
統一用個詞就是元宇宙型的Agent,谷歌和斯坦福要幹的現實版西部世界就是這類。如果放在遊戲裡就是元宇宙裡的智能NPC。這類Agent最大的建設性在於給元宇宙注入生氣,最大的破壞性則在於對上古社區的影響可能不咋正向,包括抖音。
第二種Agent則要與現實場景結合,可能是純粹數字的,也可能不是。比如招聘、營銷、空調管理、運維狀態監控等。
第三種則是具身機器人。和上一種的區別是,這種完全控制自己的一套外設,上一個則更多的是一種粘合。
這三類都會解決連續運轉場景問題,只不過後兩個在現實世界使勁,第一個在虛擬世界使勁。
上面這個排序也就是我理解的發生順序,AI Agent如果有浪潮,那很可能是這麼一個遞進次序。
大模型和AI Agent的關係
簡單形容這就是發動機和汽車的關係。
大模型很關鍵,沒有大模型就不可能打造AI Agent。可就像雖然沒有發動機就沒有汽車,但發動機成本也就佔汽車的不到五分之一。
同時,外面很可能需要有一個專門針對領域的模型,否則Planning工作沒法做。即使基於記憶和感知,如果這地兒沒有一個模型和通用大模型進行交互而是固定很多規則,那這次大模型的通用能力就被阻塞了。
所以、垂域大模型,很可能是雙模型結構(多模型)。
雙模型(多模型)結構再加上系統架構有可能是未來AI Agent的典型技術特徵。
AI Agent的價值創造機制和潛在商業模式
AI Agent的衡量標準不是單維度的技術指標,而是綜合場景的覆蓋度和完成度。得能完成下面這類活,AI Agent才真算做好了,不要去參加考試比賽甚麼的了:
1. 給你個企業和啟動資金麼,你能把錢賺回來麼? (終極)
2. 給你個機房,你能夠最優化成本來運營他麼?
3. 給你招聘需求,招聘平台賬號,你能把人招來入職麼?
4. 給你個視頻號,你能夠把它運作成個大號麼?
下面跑遠一點,AI Agent普及後,會有什麼樣的衝擊?
Agent化後,會怎麼樣?
很多事會非常不一樣。
第一這是一個依賴倒置的世界。現實更關鍵,但把手在數字空間。
第二反身性等數字類特徵會越來越明顯。
第三現有經濟體系估計會無法維持。那時候有足夠的能力構建一種邊際效能更高的體系,但具體什麼樣,我們還不知道。從這個角度確實需要智能經濟學。大師們比較嚴謹,估計不願意寫,那天我肯定瞎寫一個。
第三文化會和現在不一樣。一個人只解決人和人關係的社會和一個同時需要考慮人和AI Agent關係的社會,文化怎麼可能一樣
在這樣的一個世界里分配會比生產關鍵,分配決定了生產的內容和生產是否可以持續。
小結
AI Agent的話題有趣之處在於:沒有它就又卡住了,人工智能會再磨嘰很長時間。但如果它真的被跨過了,但很多問題就只能回到原點,然後單開一條時間線才能找到答案。如果非把AI從業者分層,那一層是乾大模型的,相當於乾發動機的;一層則是乾汽車的,就是乾AI Agent的。在過去大部分汽車廠商規模是比發動機廠商還大的,這次不知道會如何。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載