作者:B 來源:X,@bonnazhu
藉著近期OpenAI 4o版本的發布,侃一下對AI+區塊鏈的看法:
以OpenAI為首的生成式AI浪潮,靠著一己之力,拉動了資料、儲存、計算這三個板塊的發展。從此之後,AI將成為它們未來十年甚至幾十年最重要的客戶,服務好AI,再由AI去服務各個下游行業客戶和應用的鏈條正在逐步形成,AI成了最重要的中間層和發動機:
第一,AI帶動了上游基建的需求:
1) 運算:包含晶片的設計與生產,雲端運算服務,資料中心,網路/電力基礎設施等
這一環節偏重物理,AI的訓練和結果輸出需要消耗大量的算力、電力以及網路資源,而晶片的性能又是決定效率和能耗的關鍵,這決定了像英偉達, AMD這樣的晶片設計公司,台積電, 三星這樣的晶圓代工廠,以及谷歌、微軟,亞馬遜等有雲計算和數據中心業務的科技巨頭注定捕獲這一輪最大的價值。
但區塊鏈並不是沒有用武之地。目前算力壟斷非常明顯,高性能GPU一卡難求,或者需要付出很高的溢價才能在雲端運算廠商處取得相關服務,也可能由於地緣政治,晶片禁售等原因,導致算力在地理上的分佈也呈現集中。這種失衡所帶來的需求外溢,使得去中心化計算成為這一輪AI浪潮中獲取實際利益的區塊鏈板塊之一。這一板塊的項目眾多,新項目不斷湧現,爭奪會很激烈,如@akashnet_ @rendernetwork @gensynai @NodeAIETH @exa_bits @ionet @fluence_project @gpunet @nosana_ai 等等。
不過由於區塊鏈網路本身的效能限制與機器學習高昂運算量的矛盾,使得複雜的深度學習必然要在鏈下進行,然後把結果傳送到鏈上。如何驗證算力提供者是否按照要求執行了訓練任務是一個難點,並且計算需要呼叫資料和模型,存在潛在的隱私暴露問題。此時ZK(零知識證明)的威力就顯現出來了。目前已經有不少專案在探索ZK為AI進行服務,例如@bagel_network @gizatechxyz @ModulusLabs 都旨在打造一個開發者可以部署AI模型,並可運用ZK對AI訓練和推斷過程進行校驗的機器學習平台,即ZK machine learning,而@ezklxyz 則是專注做服務AI的ZKP生成器和驗證器,@Ingo_zk 則是鑽研ZKP生成硬體加速。
另外,生成式AI帶來的能耗(包括計算產生的能耗以及散熱帶來的能耗)也是相當驚人。據說OpenAI訓練GPT-6的時候,把微軟的電網都搞崩了。隨著之後各大巨頭繼續加碼AI數據中心(其中OpenAI計劃聯合微軟耗資1000億美元打造名為Stargate星際之門的超級計算機),能耗只會幾何級上漲。但是網路/電力這種基礎的建設翻新週期很慢,且在例如美國這種國家,土地大多是私有的,拓展電網及相關的基礎設施需要經過私人同意。如何讓私人有動力參與基礎設施的拓展中,或讓私人減輕對電網的依賴和負擔,這可能是未來 #DePin 的重要議題。當然,除了電能,穩定的頻寬也是AI需求的重要基礎設施之一,大部分資料中心都會傾向於建構在ISP(網路業務供應商)近一些的地方,電力豐富的地方,網路頻寬資源不一定豐富。如何利用 #DePin 解決這個錯配問題,也是一個值得期待的方向。
2) 資料:包括資料收集、資料標註/處理、資料交易/授權。
儘管數據是AI的“食物”,然而大多數機器學習模型只能使用經過處理的結構化數據。目前,用於機器學習的數據來源非常廣泛,且大部分是非結構化的和分散在各處的公開數據,因此需要花費大量時間和精力對這些數據進行蒐集和處理。這其實是一個勞動密集的苦差事,卻也是區塊鏈和代幣經濟能夠很好切入的環節,目前在做這個數據採集、處理分包業務的主要有 @getgrass_io @PublicAI_ @AITProtocol 這幾家。
不過要注意的是,隨著新的機器學習模型架構的出現,對於結構化資料的依賴會有所改變。新的技術架構如自監督學習、GAN、VAE和預訓練模型,可以直接利用非結構化資料進行深度學習,繞過資料處理和清洗環節,而這會對勞動密集型平台的需求帶來一定衝擊。
此外,可以公開抓取的資料只是這個世界資料的冰山一角,大量的資料其實掌握在私人機構或個人使用者手中,除了部分企業會有公開的API允許呼叫外,大部分資料仍舊沒有被啟動。如何讓更多的數據持有者貢獻/授權自己的數據,同時又能良好的保護隱私,是重點方向。曾經有不少做去中心化數據交易的平台,但因為苦於找不到有數據需求的甲方,經過幾輪週期的大浪淘沙,基本都銷聲匿跡,只剩下少數如@oceanprotocol 熬到了AI的春天,而它們獨特的Compute-to-data模式,讓數據使用者可以直接在數據分享者的數據集上進行計算而不暴露數據,恰好解決了這個隱私痛點。
3) 儲存:包含資料庫(database),資料備份/儲存系統(storage)
深度學習模型在訓練和推斷時用到的數據,大多是從資料庫或資料儲存備份系統處調取的。可以把資料庫和備份/儲存系統理解成“冰箱”,不過資料庫和備份/儲存系統其實是不太一樣的,前者側重管理,需要支援頻繁的讀寫,以及複雜查詢(如SQL)和檢索,後者著重大規模、長期的備份和歸檔,需要確保隱私、安全和不可竄改。
Database和storage相輔相成,共同服務AI深度學習,一個典型的場景是:資料從database中提取,進行預處理和清洗,轉換成適合模型訓練的格式,處理後的資料可以儲存在去中心化storage中,確保資料的安全。模型訓練階段,從去中心化storage中讀取訓練數據,進行模型訓練,訓練過程中產生的中間數據和模型參數可以儲存在database中,以便於快速存取和微調、更新。
這一板塊是區塊鏈的優勢所在,@ArweaveEco @Filecoin @storj @Sia__Foundation 都是這個賽道的,甚至@dfinity 也可以歸類進去,然而越來越覺得@ArweaveEco 才是最適合服務AI的那個方案:其一次性支付永續儲存的模式,加上生態系統中許多database專案作為補充,以及新發布的平行架構AO計算網絡,完美適配深度學習中多線程任務的需求,這使得其能夠很好地支援機器學習的部署。
第二,AI性能決定了下游應用的上限:
雖然AI已經或多或少在工業、農業領域(2B)有所應用,但這一輪我們看到的突破主要是基於大語言模型(LLM)的2C應用。我們可以把這些應用分成兩大類:
第一類其實只是大語言模型的具象化,例如一些AIGC平台,它們根據使用者指令產生使用者想要的結果,但這一類應用的效能主要取決於使用的AI模型,而主要的LLM模型被巨頭們壟斷,因而應用間的差異性往往較小,護城河相對較窄;另一類則是利用AI模型來提升現有產品的功能和使用者體驗,例如增加了AI能力的搜尋引擎、遊戲等,包括@_kaitoai @ScopeProtocol @EchelonFND
除此之外,生成式AI浪潮也催熱了一種新的應用生態—AI Agent,即智慧機器人,其具備根據使用者意圖獨立執行任務和做出決策的功能。 AI Agent本質是在LLM的模型基礎上,增加了更為複雜的執行和處理邏輯,使其能服務不同的應用場景。實際上,這種Agent的雛形在加密貨幣領域已經存在,例如DeFi借貸協議的清算機器人(liquidation bot)和去中心化交易平台的套利機器人(arbitrage bot)。這些DeFi Bots雖然具備智慧機器人的一些特點,但它們是純鏈上的,不支援鏈下行為,也因為是基於智慧合約,需要外部觸發才能啟動。
在沒有AI的情況下,目前是透過一套外部的keeper網路來打通鏈下和鏈上的,例如價格預言機就是這樣一個典型,以及 @thekeep3r 也是一個例子。而AI Agent的出現,給了一個新的思路,就是可以由智慧機器人自行去完成,並實現自動化。鏈上AI Agent標的主要有:@autonolas @MorpheusAIs ;而其他較為通用的AI Agent的標的有@chainml_ @Fetch_ai ;以及專注陪伴、人機互動的AI Agent有@myshell_ai @virtuals_io @The_Delysium ,而這一類Agent的特徵是擬人化,提供情緒價值,並且具有被運用到各個遊戲、元宇宙之中的想像空間。
第三,寫在最後:
AI其實是一個融合敘事,它的出現,把原先各個孤立甚至當初找不到市場契合點的幾個加密板塊串聯起來了。目前AI仍舊處於大基建投資時代,數據、儲存、計算這一類上游板塊是最直接的持續受益者,它們對AI發展更為敏感,確定性也更高。
但對這個產業的投資人來說,風險在於大部分的紅利可能不在加密貨幣市場,目前幣市的AI效應較多還是來自傳統市場供需關係失衡帶來的溢出效應,或是純炒作。而下游應用由於性能天花板取決於AI模型,而AI模型仍處在不斷迭代的過程中,且AI與產品的結合點還在探索,市場契合度還有待驗證,這使得下游應用的未來變數還比較大,確定性不如上游板塊高。
當然,還有像@bittensor_ 和 @ritualnet 這樣的項目,我認為更應該稱之為AI生態平台的項目。他們並非單純專注於上游或下游的某一塊業務,而是透過架構和經濟機制設計,使上下游業務的各個提供者能夠接入並部署到其平台或鏈上,實現所謂的人工智慧協作。這些項目有著宏大的遠景,但目前區塊鏈AI上下游面臨的需求捕捉問題同樣會反映在它們身上,且估值較高。不過,相較於押注某一個具體項目,押注這些平台的風險會相對小一些。
短期內,區塊鏈能否繼續從AI紅利中獲益,可能仍取決於上游板塊的供需關係失衡,尤其是供給不足狀況的持續。但從中長期來看,區塊鏈的可驗證性、不可篡改性和代幣激勵等特性,確實能夠為AI帶來新的可能性,其中,零知識證明是一大利器,既能保護隱私,又能實現可信驗證,完美解決了區塊鏈在效能限制下服務AI深度學習高運算量需求的問題。