作者:Teng Yan,Chain of Thought;翻譯:金色財經xiaozou
我有一大遺憾至今仍在困擾著我,對任何關注它的人來說,它無疑是最明顯的投資機會,但我沒有投入一分錢。不,我說的不是下一個Solana killer,也不是帶著滑稽帽子的狗狗meme幣。
而是…NVIDIA。
在短短一年的時間裡,NVDA的市值從1兆美元飆升至3兆美元,成長了3倍,甚至超過了同期的比特幣。
這當中當然少不了人工智慧炒作,但有很大一部分是有現實基礎的。 NVIDIA公佈其2024財年的營收為600億美元,比2023財年成長了126%,表現驚人。
那我為什麼錯過了呢?
兩年來,我一直專注於加密領域,並沒有放眼看外面的世界,沒有關注到人工智慧領域。我真是犯了個大錯,至今仍令我耿耿於懷。
但我不會再犯同樣的錯誤。
今天,Crypto AI給人的感覺非常相似。我們正處於創新大爆發的邊緣。這與19世紀中期加州淘金熱太像了,讓人難以忽視——工業和城市一夜之間興起,基礎設施以極快的速度發展,財富是由敢想敢幹的人創造的。
就像早期的NVIDIA一樣,事後看來,Crypto AI也將是顯而易見的機會。
本文第一部分,我將闡述為什麼Crypto AI對投資者和建設者來說是當今最令人興奮的弱者機會。
簡單概述如下:
-
許多人仍然認為它是幻想。
-
Crypto AI還處於早期階段,距離炒作頂峰可能還有1-2年的時間。
-
這個領域至少有2,300億美元以上的成長機會。
從本質上講,Crypto AI是一種基於加密基礎設施的AI。這意味著它更有可能跟隨人工智慧的指數成長軌跡,而不是更廣泛的加密市場。因此,為了不落後,必須關注Arxiv上最新的人工智慧研究,並與那些相信自己正在創建下一個了不起的產品和服務的創始人交談。
本文第二部分,我將深入研究Crypto AI中最有前途的四個子領域:
-
去中心化運算:訓練、推理與GPU市場
-
數據網路
-
可驗證AI
-
鏈上運行的AI代理
為撰寫本文,我花了好幾週的時間進行深入研究,與Crypto AI領域的創辦人和團隊交談,而本文則是這些努力的結晶。本文並不會詳盡地深入到每一個領域,相反,你可以把它看作是一個高層路線圖,旨在激發你的好奇心,提高你的研究水平,指導你的投資思維。
1、Crypto AI格局
我把去中心化的人工智慧堆疊描繪成一個若干層生態系統:它的一端始於去中心化運算和開放資料網絡,為去中心化人工智慧模型訓練提供支援。
然後,結合使用密碼學、加密經濟激勵機制和評估網路來驗證每個推斷——輸入和輸出都是如此。這些經過驗證的輸出流向可在鏈上自主運作的人工智慧代理,以及使用者可以真正信任的消費者和企業AI應用程式。
協調網路將一切連結在一起,實現整個生態系統的無縫通訊和協作。
在這個願景中,任何建構人工智慧的人都可以根據自己的具體需求,利用這個堆疊的一層或多個層。無論是利用去中心化計算進行模型訓練,還是使用評估網路來確保高品質的輸出,該堆疊都提供了一系列選擇。
由於區塊鏈固有的可組合性,我相信我們將自然地走向模組化未來。每一層都正變得高度專業化,協議針對不同的功能進行最佳化,而不是採用一體化整合方法。
在去中心化人工智慧堆疊的每一層都聚集了大量新創公司,其中大多數是在過去的1-3年裡成立的。很明顯,該領域還處於早期階段。
我所見過的最全面、最新的Crypto AI創業地圖是由Casey和她的團隊在topology.vc上維護的。這對任何追蹤該領域的人來說都是無價的資源。
當我深入研究Crypto AI子領域時,我不斷問自己:其中的機會有多大?我對小打小鬧沒興趣──我尋找的是能達到數千億美元規模的市場。
(1)市場規模
讓我們先來看市場規模。當評估一個細分領域時,我會問自己:它是在創造一個全新市場還是在破壞一個現有市場?
以去中心化計算為例。這是一個顛覆性的類別,其潛力可以透過觀察現有的雲端運算市場來評估,目前市值約為6,800億美元,預計到2032年將達到2.5兆美元。
史無前例的新市場,例如人工智慧代理,則更難量化。在沒有歷史數據的情況下,對它們的評估需要根據的猜測以及評估他們正在解決的問題。需要注意的是,有時候,看起來像是新市場的東西,實際上只是一個努力尋找問題的解決方案。
(2)時機
時機就是一切。隨著時間的推移,技術往往會改進並變得成本更低,但發展速度各不相同。
某一特定細分領域的技術成熟程度如何?它是否已經準備好實現規模化採用,還是仍處於研究階段,實際應用還需要幾年時間?時機決定了一個產業是值得人們立即關注還是「觀望」。
以全同態加密(FHE)為例:其潛力是不可否認的,但目前它的發展速度仍然太慢,無法被廣泛使用。我們可能還需要幾年時間才能看到它受到主流採用。透過先專注於更接近規模化的領域,我可以把時間和精力花在正在累積動力和機會的領域。
如果我要把這些類別映射到一個規模與時間圖表上,它看起來就像這樣。請記住,這還是一個概念圖,而不是一個硬性指南。有許多細微差別——例如,在可驗證推理中,不同的方法(如zkML和opML)具有不同的使用就緒等級。
也就是說,我相信人工智慧的規模將如此之大,即使是今天看起來「小眾」的領域也可能演變成一個重要的市場。
同樣值得注意的是,技術進步並不總是沿著一條直線前進——它經常是突飛猛進的。當突然爆發時,我對時機和市場規模的看法將會改變。
有了這個框架,讓我們來具體來看各個子領域。
2、領域一:去中心化計算
-
去中心化計算是去中心化人工智慧的支柱。
-
GPU市場、去中心化訓練和去中心化推理是緊密連結在一起的。
-
供應端通常來自中小型資料中心和消費者GPU。
-
需求面雖小,但仍在成長。如今,它來自對價格敏感、對延遲不敏感的用戶和規模較小的人工智慧新創公司。
-
目前Web3 GPU市場面臨的最大挑戰是如何讓它們正常運作。
-
在去中心化網路上協調GPU需要先進的工程技術和設計良好、可靠的網路架構。
2.1 GPU市場/運算網絡
有幾個Crypto AI團隊正在針對無法滿足需求的GPU短缺,建立去中心化網絡,利用全球的潛在算力。
GPU市場的核心價值主張有3個面向:
-
你可以以比AWS“低90%”的價格訪問計算,這是因為沒有中間商並開放了供應端。從本質上講,這些市場允許你利用全球最低的邊際運算成本。
-
更大的靈活性:沒有鎖定合同,沒有KYC流程,沒有等待時間。
-
抗審查性
為了解決市場供應端問題,這些市場的算力來自:
-
難尋需求的中小型資料中心的企業級GPU(例如A100、H100),或是尋求多樣化的比特幣礦工。我還知道一些團隊致力於政府資助的大型基礎設施項目,在這些項目中,作為技術增長計劃一部分的數據中心已經建成。這些GPU供應商通常被激勵將他們的GPUT保留在網路上,這有助於他們抵消GPU的攤提成本。
-
數百萬玩家和家庭用戶的消費級GPU,他們將電腦連接到網路換取代幣獎勵。
另一方面,今天去中心化計算的需求來自:
-
價格敏感、延遲不敏感的用戶。這個細分市場優先考慮價格而不是速度。想想探索新領域的研究人員、獨立AI開發者和其他不需要即時處理的成本意識較強的使用者。由於受預算限制,他們中的許多人可能不滿於傳統的超大規模伺服器(如AWS或Azure)。因為他們在人群中分佈很廣,所以有針對性的行銷對於吸引這群人至關重要。
-
小型人工智慧新創公司,他們面臨著在不與主要雲端供應商簽訂長期合約的情況下獲得靈活、可擴展的運算資源的挑戰。業務發展對於吸引這一細分市場至關重要,因為他們正在積極尋求超大規模鎖定的替代方案。
-
Crypto AI新創公司,他們建構去中心化人工智慧產品,但沒有自己的算力供應,將需要利用其中一個網路的資源。
-
雲端遊戲:雖然不是直接由AI驅動的,但雲端遊戲對GPU資源的需求也越來越大。
要記住的關鍵一點是:開發人員總是優先考慮成本和可靠性。
真正的挑戰在於需求,而非供給。
這一領域的新創公司經常將其GPU供應網路的規模作為成功的標誌。但這是一種誤導——它充其量只是一種虛榮的衡量標準。
真正的限制不是供給,而是需求。追蹤的關鍵指標不是可用的GPU數量,而是利用率和實際出租的GPU數量。
代幣在引導供應方面表現出色,創造了迅速擴大規模所需的誘因。然而,它們並不能從本質上解決需求問題。真正的考驗是讓產品達到足夠好的狀態,從而實現潛在需求。
關於這一點,Haseeb Qureshi(Dragonfly)說得好:
讓運算網路真正可以運作
與普遍的看法相反,web3分散式GPU市場目前面臨的最大障礙就是讓它們正常運作。
這並不是一個微不足道的問題。
在分散式網路中協調GPU是非常複雜的,有很多挑戰——資源分配、動態工作負載擴展、節點和GPU間的負載平衡、延遲管理、資料傳輸、容錯以及處理分散在不同地理位置的各種硬體.我還可以繼續說下去。
要實現這一點需要深思熟慮的工程設計和可靠的、設計合理的網路架構。
為了更好地理解,想想谷歌的Kubernetes。它被普遍認為是容器編排的黃金標準,在分散式環境中自動化負載平衡和擴展等過程,這與分散式GPU網路面臨的挑戰非常相似。 Kubernetes本身是建立在谷歌十多年的經驗基礎上的,即使在那時,它也需要數年的不懈迭代才能表現良好。
目前已經上線的一些GPU運算市場可以處理小規模的工作負載,但一旦它們嘗試擴展,就會出現問題。我懷疑這是因為它們的架構基礎設計很糟糕。
去中心化運算網路的另一個挑戰/機會是確保可信度:驗證每個節點實際上提供了所聲稱的運算能力。目前,這依賴網路聲譽,在某些情況下,算力提供者根據聲譽評分進行排名。區塊鏈似乎很適合無需信任的驗證系統。像Gensyn和Spheron這樣的新創公司正在力求使用一種無需信任的方法來解決這個問題。
今天,許多web3團隊仍在應對這些挑戰,這也意味著機會之門是敞開的。
去中心化計算市場規模
去中心化運算網路市場有多大?
如今,它可能只是價值6,800億至2.5兆美元的雲端運算產業的一小部分。然而,儘管增加了用戶的摩擦,但只要成本低於傳統供應商,總是會有需求的。
我相信,由於代幣補貼和對價格不敏感的用戶的供應解鎖,成本將在中短期內保持較低水平(例如,如果我能出租我的遊戲筆記型電腦賺取額外現金,無論是每月20美元還是50美元,我都會很高興的)。
但是去中心化運算網路的真正成長潛力——以及它們的TAM的真正擴展——將出現於下列情況:
-
人工智慧模型去中心化訓練變得實用。
-
對推理的需求激增,現有資料中心無法滿足需求。這種情況已經開始顯現。 Jensen Huang表示,推理需求將增加「十億倍」。
-
適當的服務等級協定(SLA)變得可用,解決企業採用的一大關鍵障礙。目前,去中心化運算的運作情況讓使用者感受到不同程度的服務品質(例如正常運作時間佔比)。有了SLA,這些網路可以提供標準化的可靠性和效能指標,使去中心化運算成為傳統雲端運算提供者的可行替代方案。
去中心化無需許可計算是去中心化人工智慧生態系統的基礎層——基礎設施。
儘管GPU的供應鏈正在不斷擴大,但我相信我們還處於人類智慧時代的黎明。對計算的需求將是無法滿足的。
需要注意可能引發所有運行GPU市場重新評級的轉折點,可能很快就會到來。
其他注意事項:
-
純粹的GPU市場是擁擠的,去中心化平台之間競爭激烈,以及web2 AI新興雲端服務(如Vast.ai和Lambda的崛起。
-
小節點(如4 x H100)的需求並不大,因為它們的使用有限,但是祝你好運能夠找到銷售大型集群的人——它們仍然有一定的需求。
-
一個主導的玩家會為去中心化協議聚合所有算力供應,還是會在多個市場中保持算力分散?我傾向於前者,因為整合通常會提高基礎設施效率。但這需要時間,同時,分裂和混亂仍在繼續。
-
開發人員希望專注於應用程式開發,而不是應對部署和配置。市場必須抽像出這些複雜性,使計算存取盡可能無摩擦。
2.2 去中心化訓練
-
如果擴展定律成立,那麼在單一資料中心訓練下一代前沿人工智慧模型將在某一天變得不可能。
-
訓練AI模型需要在GPU之間傳輸大量資料。分散式GPU之間較低的資料傳輸(互連)速度通常是最大的障礙。
-
研究人員正在同步探索多種方法,並且正在取得突破(例如Open DiLoCo、DisTrO)。這些進步將疊加聚集,加速該領域的進步。
-
去中心化訓練的未來可能係於為小眾應用設計小型專用模型,而不是前沿的、以AGI為中心的模型。
-
隨著向OpenAI o1等模型的轉變,推理需求將會飆升,為去中心化推理網絡創造機會。
想像一下:一個巨大的、改變世界的人工智慧模型,不是在秘密的精英實驗室開發的,而是由數百萬普通人塑造的。玩家們的GPU通常會創造出《決勝時刻》劇場般的爆炸場面,現在他們把自己的硬體借給了更宏大的東西——一個開源的、集體擁有的、沒有中央看門人的人工智慧模型。
在這樣一個未來,基金會規模的模型不僅囿於頂級人工智慧實驗室。
但讓我們把這個願景根植於當下的現實中來。目前,重量級人工智慧訓練的大部頭仍集中在中心化資料中心,這可能會成為一段時間的常態。
像OpenAI這樣的公司正在擴大他們龐大的集群。馬斯克(Elon Musk)最近宣布,xAI即將建成一個相當於20萬個H100 GPU的資料中心。
但這不僅僅關乎原始GPU計數。模型FLOPS利用率(MFU)是Google在2022年的PaLM研究文章中提出的指標,它追蹤GPU最大容量的使用效率。令人驚訝的是,MFU通常徘徊在35-40%之間。
為什麼這麼低?根據摩爾定律,GPU的效能在過去幾年突然飛升,但網路、記憶體和儲存的改進卻明顯落後,形成了瓶頸。因此,GPU經常處於限制狀態,等待資料。
今天的人工智慧訓練仍然高度集中,因為一個詞——效率。
訓練大型模型取決於以下技術:
-
資料並行:跨多個GPU拆分資料集並行執行操作,加速訓練過程。
-
模型並行:將模型的各部分分佈在多個GPU之間,繞過記憶體約束。
這些方法需要GPU不斷地交換數據,互連速度——數據在網路中跨電腦傳輸的速率——就變得至關重要。
當前沿人工智慧模型訓練的成本超過10億美元時,每一次效率提升都很重要。
透過高速互連,集中式資料中心能夠在GPU之間快速傳輸數據,並在訓練時間內節省大量成本,這是去中心化設定無法比擬的。
克服緩慢的互連速度
如果你與人工智慧領域的工作人員交談,許多人會告訴你,去中心化訓練根本行不通。
在去中心化設定下,GPU叢集不是物理上共存的,因此在它們之間傳輸資料要慢得多,成為瓶頸。訓練需要GPU在每一步同步、交換資料。它們距離越遠,延遲越高。更高的延遲意味著更慢的訓練速度和更高的成本。
在集中式資料中心可能需要幾天的時間,在去中心化資料中心可能會延長到兩週,成本也更高。這根本不可行。
但這種情況即將改變。
好消息是,人們對分散式訓練的研究興趣激增。研究人員正在同時探索多種方法,大量的研究和已發表論文證明了這一點。這些進步將疊加融合,加速該領域的進步。
這也關乎生產環境測試,看看我們能多大程度地突破界限。
一些去中心化訓練技術已經可以在緩慢的互連環境中處理較小模型。現在,前沿研究正在推動這些方法在大模型中的應用。
例如,Prime Intellect的開源DiCoLo一文展示了一種實用方法,該方法涉及GPU“孤島”,在同步之前執行500個本地步驟,將頻寬需求削減了500倍。從一開始的GoogleDeepMind對小模型的研究已經在11月內擴展到訓練100億個參數的模型,並且如今完全開源。
-
Nous Research正在透過他們的DisTrO框架提高標準,該框架使用優化器在訓練1.2B參數模型的同時,將GPU間的通訊要求降低了10,000倍,令人瞠目結舌。
-
而且這種勢頭還在不斷增強。去年12月,Nous宣布了一個15B參數模型的預訓練,該模型具有損失曲線(模型誤差如何隨時間減少)和收斂率(模型性能穩定的速度),這與集中式訓練的典型結果相符甚至更勝一籌。是的,比中心化好。
-
SWARM Parallelism和DTFMHE是跨不同類型裝置訓練大型AI模型的其他不同方法,即使這些裝置具有不同的速度和連接水平。
管理各種GPU硬體是另一個主要的挑戰,包括去中心化網路中典型的記憶體受限的消費級GPU。像模型並行(跨裝置劃分模型層)這樣的技術可以幫助實現這一點。
去中心化訓練的未來
目前去中心化訓練方法的模型規模仍遠低於前緣模型(據報導,GPT-4的參數接近一萬億,比Prime Intellect的10B模型大100倍)。為了實現真正的規模化,我們需要在模型架構、更好的網路基礎設施和更智慧的跨裝置任務分配方面取得突破。
我們可以有遠大的夢想。想像一下這樣一個世界:去中心化訓練所聚集的GPU運算能力甚至比最大的集中式資料中心所能聚集的還要多。
Pluralis Research(專注於去中心化訓練的精銳團隊,值得密切關注)認為這不僅是可能的,而且是不可避免的。集中式資料中心受到空間和電力可用性等實體條件限制,而去中心化網路可以利用真正無限的全球資源池。
就連英偉達(NVIDIA)的Jensen Huang也承認,非同步去中心化訓練可以釋放人工智慧擴展的真正潛力。分散式訓練網路也更具容錯性。
因此,在一個可能的未來世界,全球最強大的人工智慧模型將以一種去中心化方式被訓練。
這是一個令人興奮的前景,但我目前還沒有完全相信。我們需要更有力的證據來證明,對最大的模型進行去中心化訓練在技術上和經濟上都是可行的。
我在這當中看到了巨大的希望:去中心化訓練最好的一點可能在於為目標用例設計的小型專用開源模型,而不是與超大的AGI驅動的前沿模型競爭。某些架構,尤其是非transformer模型,已經被證明非常適合去中心化設定。
這個謎題還有另一部分:代幣。一旦去中心化訓練在規模上變得可行,代幣就可以在激勵和獎勵貢獻者方面發揮關鍵作用,有效地引導這些網路。
實現這願景的道路還很漫長,但進展令人鼓舞。由於未來模型的規模將超過單一資料中心的容量,去中心化訓練的進步將使所有人受益,甚至包括大型科技公司和頂級人工智慧研究實驗室。
未來是分散式的。當一項技術擁有如此廣泛的潛力時,歷史表明它總是比所有人預期的都要更好、更快。
2.3. 去中心化推理
目前,人工智慧的大部分運算能力都集中在訓練大規模模型上。頂尖的人工智慧實驗室正在進行一場競賽,看誰能開發出最好的基礎模型,並最終實現AGI。
但我的看法是:在未來幾年,這種專注於訓練的計算將轉向推理。隨著人工智慧越來越多地融入我們日常使用的應用程式中——從醫療保健到娛樂——支援推理所需的計算資源量將非常驚人。
這不僅僅是猜測。推理時間計算擴展(inference-time compute scaling)是人工智慧領域的最新流行語。 OpenAI最近發布了其最新模型01(代號:Strawberry)的預覽/迷你版,這是一個重大轉變嗎?需要花時間思考,先問自己應該採取哪些步驟來回答這個問題,然後逐步進行。
這個模型是為更複雜的、需要大量規劃的任務而設計的,例如填字遊戲,以及需要更深層推理的問題。你會注意到它變慢了,需要更多的時間來產生回應,但結果卻更加深思熟慮和細緻入微。它的運作成本也高很多(是GPT-4的25倍)。
重心的轉變很明顯:人工智慧效能的下一個飛躍將不僅來自訓練更大的模型,還來自於在推理過程中擴展運算應用。
如果你想了解更多,一些研究文章顯示:
-
透過重複採樣來擴展推理計算,可以在各種任務之間獲得很大的改進。
-
也有一個用於推理的擴展指數定律。
一旦強大的模型被訓練出來,它們的推理任務——模型所做的事情——就可以被轉移到去中心化計算網路上。這不無道理,因為:
-
與訓練相比,推理所需的資源要少得多。經過訓練後,可以使用量化(quantization)、剪枝(pruning)或蒸餾(distillation)等技術對模型進行壓縮和最佳化。它們甚至可以分解在日常消費設備上運作。你不需要高端GPU來支持推理。
-
這已經發生了。 Exo Labs已經找到如何在MacBook和Mac Mini等消費級硬體上運行450B參數Llama3模型的方法。跨多設備分佈推理可以有效率且經濟地處理大規模工作負載。
-
更好的使用者體驗。在離用戶更近的地方運行計算可以減少延遲,這對於遊戲、AR或自動駕駛汽車等即時應用至關重要。每一毫秒都很重要。
把去中心化推理想像成人工智慧的CDN(內容分發網路):去中心化推理利用本地運算能力,在創紀錄的時間內提供人工智慧回應,而不是透過連接到附近的伺服器來快速提供網站。透過採用去中心化推理,人工智慧應用程式變得更有效率、反應更快、更可靠。
趨勢很明顯。蘋果新推出的M4 Pro晶片與英偉達的RTX 3070 Ti競爭,直到最近,RTX 3070 Ti還是硬派遊戲玩家的領地。我們的硬體越來越有能力處理高階人工智慧工作負載。
Crypto的增值
去中心化推理網絡要成功,就必須有令人信服的經濟誘因。網路中的節點需要因其算力貢獻而獲得補償。制度必須確保公平有效地分配獎勵。地理多樣性是必要的,可以減少推理任務的延遲,並提高容錯性。
建立去中心化網路的最佳方式是什麼? Crypto。
代幣提供了一種強大的機制來協調參與者的利益,確保每個人都朝著同一個目標努力:擴展網路並提高代幣價值。
代幣也加速了網路的成長。它們透過獎勵早期採用者以及從第一天起推動參與度,幫助解決了經典的雞生蛋還是蛋生雞的問題,這個問題阻礙了大多數網路的發展。
比特幣和以太坊的成功證明了這一點——它們已經聚集了地球上最大的算力池。
去中心化推理網絡將是下一個。由於地理的多樣性,它們減少了延遲,提高了容錯性,使人工智慧更接近用戶。在加密激勵下,它們將比傳統網路更快、更好地擴展。
(未完待續,請留意)