作者:Jane Doe, Chen Li,通訊作者:Youbi投資團隊
1 AI與Crypto的交點
5月23日,晶片巨頭英偉達發布了2025財年第一季財報。財報顯示,英偉達第一季營收為260億美元。其中,資料中心營收較去年成長427%,達到驚人的226億美元。英偉達能夠憑藉一己之力拯救美股大盤的財務表現背後,反映的是全球科技公司為了角逐AI賽道而爆發的算力需求。越頂尖的科技公司在AI賽道佈局的野心越大,相應的,這些公司對於算力的需求也呈指數級增長。根據TrendForce的預測,2024年美國四大主要雲端服務供應商:微軟、Google、AWS和Meta的對於高階AI伺服器的需求預計將佔全球需求的20.2%、16.6%、16%和10.8%,總計超60%。
圖片來源: https://investor.nvidia.com/financial-info/financial-reports/default.aspx
「晶片緊缺「連續成為近幾年的年度熱詞。一方面,大語言模型(LLM)的training和inference需要大量算力支撐;並且隨著模型的迭代,算力成本和需求呈指數級增加。另一方面,像Meta這樣的大公司會採購大量的晶片,全球的算力資源都向這些科技巨頭傾斜,使得小型企業越來越難以獲得所需的算力資源。小型企業面臨的困境不僅來自於激增的需求所導致的晶片供給不足,也來自於供給的結構性矛盾。目前,在供給端仍有大量閒置的GPU,例如,一些資料中心存在大量閒置的算力(使用率僅在12% – 18%),加密挖礦中由於利潤的減少也閒置出來大量的算力資源。雖然這些算力並非都適合AI訓練等專業的應用場景,但消費級硬體在其他領域,如AI inference、雲端遊戲渲染、雲端手機等領域仍可發揮巨大作用。整合並利用這部分算力資源的機會是巨大的。
把視線從AI轉到crypto,在加密市場沉寂了三年之後,終於又迎來了又一輪牛市,比特幣價格屢創新高,各種memecoin層出不窮。雖然AI和Crypto作為buzzword火了這些年,但人工智慧和區塊鏈作為兩項重要技術彷彿兩條平行線,遲遲沒有找到一個「交點」。今年年初,Vitalik發表了一篇名為“The promise and challenges of crypto + AI applications” 的文章,討論了未來AI和crypto相結合的場景。 Vitalik在文中提到了許多的暢想,包括利用區塊鏈和MPC等加密技術對AI進行去中心化的training和inference,可以將machine learning的黑箱打開,從而讓AI model更加trustless等等。這些願景若要實現還有很長一段路要走。但其中Vitalik提到的其中一個用例——利用crypto的經濟誘因來賦能AI,也是一個重要且在短時間內可以實現的方向。去中心化算力網絡便是現階段AI + crypto最適合的場景之一。
2 去中心化算力網絡
目前,已經有不少專案在去中心化算力網路的賽道上發展。這些專案的底層邏輯是相似的,可以概括為: 利用token激勵算力持有者參與網絡提供算力服務,這些零散的算力資源可以匯集集成有一定規模的去中心化算力網絡。這樣既能提高閒置算力的利用率,又能以更低的成本滿足客戶的算力需求,實現買方賣方雙方的共贏。
為了使讀者在短時間內獲得對此賽道的整體把握,本文將從微觀—宏觀兩個視角對具體的項目和整個賽道進行解構,旨在為讀者提供分析視角去理解每個項目的核心競爭優勢以及去中心化算力賽道整體的發展。作者將介紹並分析五個項目: Aethir、io.net、Render Network、Akash Network、Gensyn,並對專案狀況和賽道發展進行總結和評估。
從分析架構而言,如果聚焦於一個具體的去中心化算力網絡,我們可以將其拆解成四個核心的組成部分:
-
硬體網路:將分散的算力資源整合在一起,透過分佈在全球各地的節點來實現算力資源的共享和負載平衡,是去中心化算力網路的基礎層。
-
雙邊市場:透過合理的定價機制和發現機制將算力提供者與需求者進行匹配,提供安全的交易平台,確保供需雙方的交易透明、公平和可信。
-
共識機制:用於確保網路內節點正確運作並完成工作。共識機制主要用於監測兩個層面:1)監測節點是否在線上運行,處於可以隨時接受任務的活躍狀態;2)節點工作證明:該節點接到任務後有效正確地完成了任務,算力沒有被用於其他目的而佔用了進程和執行緒。
-
代幣激勵:代幣模型用於激勵更多的參與者提供/使用服務,並且用token捕獲這種網路效應,實現社區收益共享。
如果鳥瞰整個去中心化算力賽道,Blockworks Research的研究提供了一個很好的分析框架,我們可以將此賽道的專案position分為三個不同的layer。
-
Bare metal layer: 構成去中心化運算堆疊的基礎層,主要的任務是收集原始算力資源並且讓它們能夠被API呼叫。
-
Orchestration layer: 構成去中心化運算堆疊的中間層,主要的任務是協調和抽象,負責算力的調度、擴展、操作、負載平衡和容錯等。主要作用是「抽象」底層硬體管理的複雜性,為終端用戶提供更高階的使用者介面,服務特定的客群。
-
Aggregation layer: 構成去中心化運算堆疊的頂層,主要的任務是整合,負責提供一個統一的介面讓使用者可以在一處實現多種計算任務,例如AI訓練、渲染、zkML等等。相當於多個去中心化計算服務的編排和分送層。
圖片來源:Youbi Capital
根據上述兩個分析框架,我們將對選取的五個項目做一個橫向的對比,並從四個層面——核心業務、市場定位、硬體設施和財務表現對其進行評估。
2.1 核心業務
從底層邏輯來講,去中心化算力網絡是高度同質化的,即利用token激勵閒置算力持有者提供算力服務。圍繞著這個底層邏輯,我們可以從三個方面的差異來理解專案核心業務的差異:
-
閒置算力的來源:
-
市面上閒置算力有兩種主要的來源:1)data centers, 礦商等企業手裡閒置算力;2)散戶手上的閒置算力。資料中心的算力通常是專業級的硬件,而散戶通常會購買消費級的晶片。
-
Aethir、Akash Network和Gensyn的算力主要是從企業收集的。從企業收集算力的好處在於:1)企業和資料中心通常擁有更高品質的硬體和專業維護團隊,算力資源的效能和可靠性更高;2)企業和資料中心的算力資源往往更同質化,並且集中的管理和監控使得資源的調度和維護更加有效率。但相應的,這種方式對於專案方的要求較高,需要專案方有與掌握算力的企業有商業聯繫。同時,可擴展性和去中心化程度會受到一定程度的影響。
-
Render Network和io.net主要是激勵散戶提供手中的閒置算力。從散戶收集算力的好處在於:1)散戶的閒置算力顯性成本較低,能提供更經濟的算力資源;2)網路的可擴展性和去中心化程度更高,增強了系統的彈性和穩健性。而缺點在於,散戶資源分佈廣泛且不統一,管理和調度變得複雜,增加了維運難度。而依賴散戶算力去形成初步的網路效應會更加困難(更難kickstart)。最後,散戶的設備可能有更多的安全隱患,會帶來資料外洩和算力被濫用的風險。
-
算力消費者
-
從算力消費者來講,Aethir、io.net、Gensyn的目標客戶主要是企業。對於B端客戶來說,AI和遊戲即時渲染需要高效能運算需求。這類工作負載對算力資源的要求極高,通常需要高階GPU 或專業級硬體。此外,B端客戶對算力資源的穩定性和可靠性要求很高,因此必須提供高品質的服務等級協議,確保專案正常運作並提供及時的技術支援。同時,B端客戶的遷移成本很高,如果去中心化網路沒有成熟的SDK能夠讓專案方快速deploy(例如Akash Network需要使用者自己基於遠端連接埠進行開發),那麼很難讓客戶進行遷移。如果不是及其顯著的價格優勢,客戶遷移的意願是非常低的。
-
Render Network和Akash Network主要為散戶提供算力服務。為C端用戶提供服務,專案需設計簡單易用的介面與工具,為消費者提供良好的消費體驗。且消費者對於對價格很敏感,因此專案需要提供有競爭力的定價。
-
硬體類型
-
常見的運算硬體資源包括CPU、FPGA、GPU、ASIC和SoC等。這些硬體在設計目標、效能特性和應用領域上有顯著差異。總結來說,CPU更擅長通用運算任務,FPGA的優勢在於高平行處理和可編程性,GPU在平行運算中表現出色,ASIC在特定任務中效率最高,而SoC則整合多種功能於一體,適用於高度整合的應用。選擇哪種硬體取決於具體應用的需求、效能要求和成本考量。我們討論的去中心化算力項目多為收集GPU算力,這是由專案業務類型和GPU的特性決定的。因為GPU在AI訓練、平行運算、多媒體渲染等方面有著獨特優勢。
-
雖然這些項目大多涉及GPU的集成,但是不同的應用對硬體規格的要求不同,因此這些硬體有異質化的最佳化核心和參數。這些參數包括parallelism/serial dependencies,內存,延遲等等。例如渲染工作負載實際上更適合消費級GPU,而不適合性能更強的data center GPU,因為渲染對於光線追蹤等要求高,消費級晶片如4090s等強化了RT cores,專門為光線追蹤任務做了計算類最佳化。 AI training和inference則需要專業等級的GPU。因此Render Network 可從散戶匯集RTX 3090s 和4090s等消費級GPU,而IO.NET需要更多的H100s、 A100s等專業級GPU,以滿足AI新創公司的需求。
2.2 市場定位
對於專案的定位來講,bare metal layer、orchestration layer和aggregation layer需要解決的核心問題、優化重點和價值捕獲的能力不同。
-
Bare metal layer 關注的是實體資源的收集和利用,Orchestration layer 專注於算力的調度和最佳化,將實體硬體依照客戶群的需求進行最佳最佳化設計。 Aggregation layer是general purpose的,關注不同資源的整合與抽象。從價值鏈來講,各個項目應該從bare metal層起,努力向上進行攀升。
-
從價值捕獲的角度來講,從bare metal layer、orchestration layer 到aggregation layer,價值捕獲的能力是逐層遞增的。 Aggregation layer能夠捕捉最多的價值,原因在於aggregation platform能夠獲得最大的網路效應,還能直接觸及最多的用戶,相當於去中心化網路的流量入口,從而在整個算力資源管理棧中佔據最高的價值捕獲位置。
-
對應的,想要建構一個aggregation platform的難度也是最大的,專案需要綜合解決技術複雜性、異質資源管理、系統可靠性和可擴展性、網路效應實現、安全性和隱私保護以及複雜的運維管理等多方面的問題。這些挑戰不利於專案的冷啟動,並且取決於賽道的發展和時機。在orchestration layer還未發展成熟吃下一定市場份額時,做aggregation layer是不太現實的。
-
目前,Aethir、Render Network、Akash Network和Gensyn都屬於Orchestration layer,他們旨在為特定的目標和客戶群體提供服務。 Aethir目前的主要業務是為雲端遊戲做即時渲染,並為B端客戶提供一定的開發和部署環境和工具; Render Network主營業務是視訊渲染,Akash Network的任務是提供一個類似於淘寶的交易平台,而Gensyn深耕於AI training領域。 io.net的定位是Aggregation layer,但目前io實現的功能還離aggregation layer的完整功能還有一段距離,雖然已經收集了Render Network和Filecoin的硬件,但對於硬體資源的抽象和整合還未完成。
2.3 硬體設施
-
目前,不是所有專案都公佈了網路的詳細數據,相對來說,io.net explorer的UI做的是最好的,上面可以看到GPU/CPU數量、種類、價格、分佈、網路用量、節點收入等等參數。但是4月底時io.net的前端遭到了攻擊,由於io沒有對PUT/POST 的介面做Auth,駭客篡改了前端資料。這為其他項目的隱私、網路資料可靠性也敲響了警鐘。
-
從GPU的數量和model來說,作為聚合層的io.net收集的硬體數量應該是最多的。 Aethir緊跟在後,其他專案的硬體情況沒有那麼透明。從GPU model可以看到,io既有A100這樣的專業級GPU,也有4090這樣的消費級GPU,種類繁多,這符合io.net aggregation的定位。 io可以根據特定任務需求選擇最適合的GPU。但不同型號和品牌的GPU可能需要不同的驅動和配置,軟體也需要進行複雜的最佳化,這增加了管理和維護的複雜性。目前io各類任務分配主要是靠使用者自主選擇。
-
Aethir發布了自己的礦機,五月時,高通支持研發的Aethir Edge正式推出。它將打破遠離使用者的單一集中化的GPU叢集部署方式,將算力部署到邊緣。 Aethir Edge將結合H100的叢集算力,共同為AI場景服務,它可以部署訓練好的模型,以最優的成本為使用者提供推理計算服務。這種方案離用戶更近,服務更快速,性價比也更高。
-
從供給需求來看,以Akash Network為例,其統計顯示,CPU總量約16k,GPU數量為378個,依照網路租賃需求,CPU和GPU的使用率分別為11.1%和19.3%。其中只有專業級GPU H100的租用率是比較高的,其他的model大多處於閒置狀態。其他網路面臨的狀況大致與Akash一致,網路整體需求量不高,除瞭如A100、H100等熱門晶片,其他算力大多處於閒置的狀態。
-
從價格優勢來看,與除雲端運算市場巨頭而言,與其他傳統服務商相比成本優勢並不突出。
2.4 財務表現
-
不管token model如何設計,一個健康的tokenomics都需要滿足以下幾個基本條件:1)用戶對於網路的需求需要體現在幣價上,也就是說代幣是可以實現價值捕獲的;2)各個參與者,不管是開發者、節點、使用者都需要得到長期的公平的激勵;3)保證去中心化的治理,避免內部人士過度持有;4)合理的通膨和通縮機制和代幣釋放週期,避免大幅波動的幣價影響網路的穩健型和持續性。
-
如果把代幣模型籠統地分為BME(burn and mint equilibrium)和SFA(stake for access),這兩種模式的代幣通縮壓力來源不同:BME模型在用戶購買服務後會燃燒代幣,因此系統的通縮壓力是由需求決定的。而SFA要求服務提供者/節點質押代幣以獲得提供服務的資格,因此通貨緊縮壓力是由供給帶來的。 BME的好處在於更適合用於非標準化商品。但如果網路的需求不足,可能面臨持續通膨的壓力。各項目的代幣模型在細節上有差異,但整體來說,Aethir更偏向SFA,而io.net,Render Network和Akash Network更偏向BME,Gensyn尚未可知。
-
從收入來看,網路的需求量會直接反映在網路整體收入上(這裡不討論礦工的收入,因為礦工除了完成任務所獲的報酬還有來自於專案的補貼。)從公開的數據來看io .net的數值是最高的。 Aethir的收入雖然還未公佈,但從公開資訊來看,他們宣布已經與許多B端客戶簽訂了訂單。
-
從幣價來說,目前只有Render Network和Akash Network進行了ICO。 Aethir和io.net也在近期發幣,價格表現需要再觀察,在這不做過多討論。 Gensyn的計劃還不清楚。從發幣的兩個項目以及同一個賽道但沒有包含在本文討論範圍內的已經發幣的項目,綜合來講,去中心化算力網絡都有非常亮眼的價格表現,一定程度體現了巨大的市場潛力和社區的高期望。
2.5 總結
-
去中心化算力網路賽道整體發展很快,已經有許多專案可以依靠產品服務客戶,並產生一定收入。賽道已經脫離了純敘事,進入可以提供初步服務的發展階段。
-
需求疲軟是去中心化算力網路所面臨的共通性問題,長期的客戶需求沒有被很好地驗證和挖掘。但需求面並沒有過多影響幣價,已經發幣的幾個項目表現亮眼。
-
AI是去中心化算力網路的主要敘事,但不是唯一的業務。除了應用於AI training和inference之外,算力還可用於雲端遊戲即時渲染,雲端手機服務等等。
-
算力網路的硬體異質化程度較高,算力網路的品質和規模需要進一步提升。
-
對C端用戶來說,成本優勢並不是十分明顯。而對於B端用戶來說,除了節省成本之外,還需考慮服務的穩定性、可靠性、技術支援、合規和法律支援等等方面,而Web3的專案普遍在這些方面做得不夠好。
3 Closing thoughts
AI的爆發式成長帶來的對於算力的巨量需求是毋庸置疑的。自2012 年以來,人工智慧訓練任務中使用的算力正呈指數級增長,其目前速度為每3.5個月翻一倍(相比之下,摩爾定律是每18個月翻倍)。自2012 年以來,人們對於算力的需求成長了超過30萬倍,遠遠超過摩爾定律的12倍成長。據預測,GPU市場預計將在未來五年內以32%的年複合成長率成長至超過2,000億美元。 AMD的估計更高,公司預計到2027年GPU晶片市場將達到4000億美元。
圖片來源: https://www.stateof.ai/
因為人工智慧和其他運算密集型工作負載(如AR/VR渲染)的爆發性成長暴露了傳統雲端運算和領先運算市場中的結構性低效問題。理論上去中心化算力網路能夠透過利用分散式閒置運算資源,提供更靈活、低成本和高效的解決方案,從而滿足市場對運算資源的巨大需求。因此,crypto與AI的結合有著巨大的市場潛力,但同時也面臨與傳統企業激烈的競爭、高進入門檻和複雜的市場環境。總的來說,縱觀所有crypto賽道,去中心化算力網路是加密領域中最有希望獲得真實需求的垂直領域之一。
圖片來源:https://vitalik.eth.limo/general/2024/01/30/cryptoai.html
前途是光明的,道路是曲折的。想要達到上述的願景,我們還需要解決眾多的問題與挑戰,總結來說:現階段如果單純提供傳統的雲端服務,專案的profit margin很小。從需求面來分析,大型企業一般會自建算力,純C端開發者大多會選擇雲端服務,真正使用去中心化算力網路資源的中小型企業是否會有穩定需求還需要進一步挖掘和驗證。另一方面,AI是一個擁有極高上限和想像空間的廣闊市場,為了更廣闊的市場,未來去中心化算力服務商也需要向模型/AI服務進行轉型,探索更多的crypto + AI的使用場景,擴大專案能夠創造的價值。但目前來說,想要進一步發展到AI領域還存在著許多問題與挑戰:
-
價格優勢並不突出:透過先前的數據對比可以看出,去中心化算力網路的成本優勢並沒有體現。可能的原因在於對於需求大的專業晶片H100、A100等,市場機制決定了這部分硬體的價格不會便宜。另外,去中心化網絡雖然能收集閒置的算力資源,但去中心化帶來的規模經濟效應的缺乏、高網絡和頻寬成本以及極大的管理和運維的複雜性等隱形成本會進一步增加算力成本。
-
AI training的特殊性:利用去中心化的方式進行AI trainning在現階段有著巨大的技術瓶頸。這種瓶頸從GPU的工作流程當中可以直觀體現,在大語言模型訓練中,GPU首先接收預處理後的資料批次,進行前向傳播和反向傳播計算以產生梯度。接下來,各GPU會聚合梯度並更新模型參數,確保所有GPU同步。這個過程將不斷重複,直到訓練完成所有批次或達到預定輪數。這個過程中涉及到大量的資料傳輸和同步。使用什麼樣的平行和同步策略,如何優化網路頻寬和延遲,降低通訊成本等等問題,目前都還未得到很好的解答。現階段利用去中心化算力網路對AI進行訓練還不太現實。
-
資料安全與隱私:在大語言模型的訓練過程中,各個涉及資料處理和傳輸的環節,例如資料分配、模型訓練、參數和梯度聚合都有可能影響資料安全和隱私。且資料隱私幣模型隱私更加重要。如果無法解決資料隱私的問題,就無法在需求端真正規模化。
從最現實的角度考慮,一個去中心化算力網路需要同時兼顧當下的需求發掘和未來的市場空間。找準產品定位和目標客群,例如先瞄準非AI或Web3原生項目,從比較邊緣的需求入手,建立起早期的使用者基礎。同時,不斷探索AI與crypto結合的各種場景,探索技術前沿,實現服務的轉型升級。
參考文獻
https://www.stateof.ai/
https://vitalik.eth.limo/general/2024/01/30/cryptoai.html
https://foresightnews.pro/article/detail/34368
https://app.blockworksresearch.com/unlocked/compute-de-pi-ns-paths-to-adoption-in-an-ai-dominated-market?callback=%2Fresearch%2Fcompute-de-pi-ns-paths -to-adoption-in-an-ai-dominated-market
去中心化算力赛道万字研报:AI 竞赛浪潮之下,能否破圈斩获巨量市场规模?全景式拆解其发展背景、市场机遇、生态现状、利弊风险与未来展望