作者Mohit Pandit指出,GPU供應緊張,但未充分利用。他提出DePIN模型可以激勵雲端運算參與,解決GPU可用性問題。然而,選擇Web3雲端需要權衡,如延遲和服務等級協定。未來,人工智慧領域需求龐大,需要更多運算能力支援。新市場參與者需要聚合資源,解決GPU供應問題。對於Web3 GPU雲,它相對於Web2有成本優勢和更低的運算成本,但面臨合規和供應需求風險。總的來說,DePIN模型可能是解決GPU供應問題的有效方法,但需要解決零組件供應和需求大幅上漲問題。
作者:Mohit Pandit,IOSG Ventures
摘要
GPU已經是現實,供需緊張,但未充分利用的GPU數量可以滿足當前供應短缺的需求。需要一個激勵層來促進雲端運算的參與,然後最終協調用於推理或訓練的運算任務。 DePIN車型正好適合此用途。由於供應方的成本受到影響,由於計算較低,需求方發現這很有吸引力。並非一切都是美好的,選擇Web3雲端時必須做出一些權衡:例如’延遲’。相對於傳統的GPU雲,面臨的權衡還包括保險、服務等級協議(Service Level Agreements)等。 DePIN模型有潛力解決GPU可用性問題,但碎片化模型不會讓情況變得更好。對於需求呈指數級增長的情況,碎片化供應和沒有供應一樣。考慮到新市場參與者的數量,市場聚合是預先的。
引言
我們正處於機器學習和人工智慧的新時代邊緣。雖然人工智慧已經以各種形式存在一段時間(據悉人工智慧可以執行人類可以做的電腦設備,例如洗衣機),但我們現在見證了複雜的認知模型的出現,這些模型能夠執行需要智慧人類行為的任務。顯著的例子包括OpenAI的GPT-4和DALL-E 2,以及Google的Gemini。
在快速成長的人工智慧(AI)領域,我們必須認識到發展的雙重面向:模型訓練和推理。推理包括AI模型的功能和輸出,而訓練包括建立智慧模型所需的複雜過程(包括機器學習演算法) 、資料集和計算能力)。
以GPT-4為例,最終使用者關心的直覺推理:基於從模型取得輸出的文字輸入。然而,這種推理的品質取決於模型訓練。為了訓練有效的AI模型,開發者需要獲得全面的基礎資料集這些資源主要中心化在包括OpenAI、Google、微軟和AWS 等產業巨頭的手中。
公式很簡單:更好的模型訓練>>導致AI模型的推理能力增強>>從而吸引更多用戶>>帶來更多收入,用於進一步訓練的資源也會增加。
這些主要玩家能夠存取的是大型基礎資料集,更關鍵的控制著大量運算能力,為新興開發者創造了進入障礙。因此,新進入者往往難以以經濟可行的規模和成本獲得足夠的數據或使用必要性考慮到這種情況,我們看到網路在民主化資源獲取方面具有很大的價值,主要是與大規模獲取計算資源以及降低成本有關。
GPU供應問題
NVIDIA的CEO黃仁勳在2019年CES上表示「摩爾校正已經結束」。現今的GPU還沒有充分利用。即使在延遲學習/訓練週期中,GPU也沒有被充分利用。
以下是不同工作負載的典型GPU 使用率數字:
空閒(剛啟動進入Windows作業系統):0-2% 一般生產任務(寫作、簡單瀏覽):0-15% 影片播放:15 – 35% PC遊戲:25 – 95% 圖形設計/照片編輯積極工作負載(Photoshop、Illustrator):15 – 55% 影片編輯(積極性):15 – 55% 影片編輯(渲染):33 – 100% 3D渲染(CUDA / OptiX):33 – 100%(常被Win任務管理器錯誤報告– 使用GPU-Z)
大多數有GPU的消費性設備都屬於前三類。
GPU運行時利用率%。來源:Weights and Biases
這些情況指出了一個問題:攻擊資源利用不良。
需要更好地利用消費者GPU 的容量,即使在GPU 使用率出現高峰時,也是次優的。這明確了未來要進行的兩件事:
資源(GPU)聚合訓練任務的玩具化
可以使用的硬體類型方面,現在有4種類型用於供應:
· 資料中心GPU(例如,Nvidia A100s)
· 消費性GPU(例如,Nvidia RTX3060)
· 客製化ASIC(例如,Coreweave IPU)
· 消費者SoC(例如,蘋果M2)
除了ASIC(因為它們是針對特定目的而建構的)之外,其他硬體也可以以最有效的方式收集。隨著許多這樣的晶片掌握在消費者和資料中心手中,聚合供應方的DePIN 模型可能是可行的道路。
GPU生產是一個量體模組;消費級GPU產量最高,而像NVIDIA A100s和H100s這樣的高級GPU產量最低(但性能更高)。生產這些高階晶片的成本是消費者GPU的15倍,但有時並沒有提供15倍的效能。
整個雲端運算市場今天價值約4,830億美元,預計未來幾年將約27%的Compound年增長時間。到2023年,將有大約130億的ML運算需求,以目前的標準費率,這相當於2023年ML計算的約560億美元支出。這整個市場正在快速成長,每3個月成長2倍。
GPU需求
主要計算需求來自AI開發者(研究人員和工程師)。他們的主要需求是:價格(佔用計算)、規模(大量GPU運算)和體驗(易於存取和使用)。在過去兩年中,由於針對基於AI的應用程式的需求增加以及ML模型的發展,GPU需求量巨大。開發和運行ML模型需要:
大量運算(來自存取多個GPU或資料中心) 能夠執行模型訓練、微調(微調)以及推理,每個任務都部署在大量GPU上任務執行
計算預計到2021年的相關硬體支出將達到2025年的2850億美元(約102%的Compound年支出),ARK預計到2030年計算相關硬體支出將達到1.7萬億美元(43%)的Compound年尖端)。
方舟研究
隨著大量LLM的創新階段,對更多訓練參數的計算需求的競爭驅動,以及重新,我們可以預測在未來幾年內對高品質計算的持續需求。
隨著新的GPU供應緊張,區塊鏈在哪裡發揮作用?
當使用資源不足的時候,DePIN模型就會提供其協助:
啟動供應方,創造大量供應協調並完成任務確保任務正確完成為完成工作的提供者正確的獎勵
聚合任何類型的GPU(消費者、企業、效能等)都可能在使用方面出現問題。當計算任務被分割時,A100晶片不應該執行簡單的計算。 GPU網路需要決定他們認為應該包含在網路中的GPU類型,根據他們的市場進入策略。
當計算資源本身去中心化(有時是全球性的)時,需要由使用者或協議本身做出選擇,決定將使用哪種類型的計算框架。提供者像io.net允許使用者從3種運算框架中選擇: Ray、Mega-Ray 或部署Kubernetes 叢集在容器中執行運算任務。還有更多的運算框架,如Apache Spark,但Ray 是最常使用的。一旦選定的GPU 完成了計算任務,將重構輸出以訓練給出了素的模型。
一個設計良好的代幣模型將使GPU 提供者稠密運算成本,許多開發者(需求方)會發現這樣的方案更難以承受。整個計算系統本質上就存在延遲。存在計算分解和輸出重構。因此開發人員需要在訓練模型的成本實現和所需時間之間進行權衡。
分散式運算系統需要有自己的鏈嗎?
網路有多種運作方式:
按任務(或計算週期)收費或按時間收費按時間單位收費
第一種方法,可以建構一個類似Gensyn所嘗試的工作證明鏈,其中不同的GPU分擔「工作」並因此獲得獎勵。為了更無信任的模型,他們有驗證者和告密者的概念,他們因保持系統的亮點而獲得獎勵,是基於解算者生成的證明。
另一個工作證明系統是Exabits,它不是任務分割,而是將其整個GPU網路視為單一超級電腦。這種模型似乎更適合大型LLM。
Akash Network 增加了GPU 支持,並開始聚合GPU 進入這一領域。他們有一個基礎的L1 來就狀態(顯示GPU 提供者完成的工作)達成共識,一個市場層,以及容器編排系統,如Kubernetes 或Docker Swarm來管理用戶應用程式的部署和擴展。
如果一個系統希望無信任,那麼工作證明鏈模型將是最有效的。這確保了協議的協調和完整性。
另一方面,像io.net這樣的系統並沒有將自己建構成一條鏈。他們選擇解決GPU可用性的核心問題,並按時間單位(底盤)向客戶收費。他們不需要可驗證性層,因為它們本質上是「租用」GPU,在特定租賃中隨意使用。協定本身沒有任務分割,而是由開發者使用像Ray、Mega-Ray或Kubernetes這樣的開源框架來完成。
Web2與Web3 GPU雲
Web2在GPU雲端或GPU即服務領域有許多參與者。該領域的主要參與者包括AWS、CoreWeave、PaperSpace、Jarvis Labs、Lambda Labs、Google雲端、微軟Azure和OVH雲端。
這是一個傳統的雲端業務模型,客戶需要運算的時間可以按時間(通常是一小時)租用GPU(或多個GPU)。有許多不同的解決方案適用於不同的案例。
Web2和Web3 GPU雲端之間的主要差異有以下參數:
1.雲端設定成本
由於代幣激勵,建立GPU雲端的成本顯著降低。 OpenAI正在花費1兆美元用於計算晶片的生產。看來在沒有代幣誘因的情況下,擊敗市場領導者需要至少1兆美元。
2. 計算時間
Web 非3 GPU 雲端將會更快,已租用的GPU 叢集位於地理區域內,而Web3 模型可能有一個更廣泛的分佈系統,延遲可能來自於低效的問題分割、因為負載平衡,最重要的是頻寬。
3. 計算成本
由於代幣啟發,Web3 的運算成本將顯著低於現有的Web2 模型。
計算成本對比:
當有更多供應和使用負載提供這些GPU時,這些數字可能會改變。 Gensyn聲稱以低至0.55美元的價格提供A100s(及其等價物),Exabits承諾類似成本的節省結構。
4.合規性
在無許可系統中,合規性並不容易。然而,像io.net、Gensyn等Web3系統並沒有將自己定位為無許可系統。在GPU上線、資料載入、資料共享和結果共享階段處理了GDPR和HIPAA等合規性問題。
生態系統
Gensyn、io.net、Exabits、Akash
風險
1.需求風險
我認為頂級LLM玩家要么會繼續增持GPU,要么會使用像NVIDIA的Selene超級電腦這樣的GPU集群,近期的峰值性能為2.8 exaFLOP/s。他們不會依賴消費者或長尾雲來增持GPU目前,頂級AI組織在品質上的競爭較大成本。
對於非重型ML模型,他們將尋求更便宜的運算資源,就像基於區塊鏈的代幣強大的GPU叢集可以在優化現有GPU的同時提供服務(以上是假設:那些組織更喜歡訓練自己的模型,而不是使用LLM)
2、供應風險
隨著大量資本投入ASIC研究,以及像張量處理單元(TPU)這樣的發明,這個GPU供應問題可能會自行消失。如果這些ASIC能夠提供良好的效能:成本權衡,那麼大型AI組織會囤積現有的GPU可能會重新回歸市場。
基於區塊鏈的GPU叢集是否解決了一個長期問題?雖然區塊鏈可以支援GPU以外的任何晶片,但需求方所為將完全決定這一領域內專案的發展方向。
結論
擁有小型GPU叢集的碎片化網路無法解決問題。沒有「長尾」GPU叢集的位置。 GPU巨頭(零售或較小的雲端玩家)將傾向於更大的網絡,因為網路的更好。會是良好的代幣模型的功能,也是供應方支援多種計算類型的能力。
GPU負載可能會像CDN一樣看到類似的聚合定義。如果大型玩家要與AWS等現有領先者競爭,他們可能會開始共享資源,以減少網路延遲和節點的地理接近性。
如果需求方成長得更大(需要訓練的模型更多,需要訓練的參數數量也更多),Web3玩家必須在供應方業務發展方面非常積極。如果有太多的負載從相同的客戶群中競爭,將會出現碎片化的供應(這使整個概念無效),而需求(以TFLOPs計)呈指數級增長。
Io.net已經從勞動力競爭者中引入,以聚合器模型啟動。他們已經聚合了渲染網路和Filecoin礦工的GPU,提供容量,同時也在自己的平台上引導供應。這可能是DePIN GPU負載的獲利家方向。
資訊來源:0x資訊編譯自網際網路。版權歸作者IOSG所有,未經許可,不得轉載