IOSG:從矽晶片到智慧應用的人工智慧訓練與推理技術全景


人工智慧的快速發展依賴於複雜的基礎設施構成的技術棧,包括硬體和軟體層。硬體層由CPU、GPU和AI加速器等組成,為AI提供運算能力;中介軟體如CUDA則架起高階框架與硬體之間的橋樑。 TVM和MLIR等翻譯器優化AI工作負載,Ray與Horovod解決大規模AI計算的可擴展性。與加密貨幣結合的DePIN項目,促進了去中心化的GPU資源利用,推動AI訓練的民主化,提升了運算效率。這些發展可能對NVIDIA的市場地位形成挑戰。

人工智慧的快速發展是基於複雜的基礎設施。 AI技術堆疊是一個由硬體和軟體構成的分層架構,它是當前AI革命的推動者。在這裡,我們將深入分析技術堆疊的主要層次,並闡述每個層面對AI開發和實施的貢獻。最後,我們將銘記掌握這些基礎知識的重要性,特別是在評估加密貨幣與AI交叉領域的機會時,例如DePIN(去中心化實體基礎設施)項目,例如GPU網路。

IOSG:從矽到智能,人工智慧訓練與推理技術棧

1.硬體層:矽基礎

最底層的是硬件,它為人工智慧提供實體運算能力。

CPU(中央處理器):是運算的基礎處理器。它們擅長處理順序任務,對於通用計算非常重要,包括數據消耗、組件小規模人工智慧任務以及協調其他。

GPU(圖形處理器):最初設計用於圖形渲染,但同時能夠執行大量簡單計算而成為人工智慧的重要組成部分。這種任務處理能力使GPU非常適合訓練深度學習模型,沒有GPU的發展,現代的GPT模型就無法實現。

AI加速器:專為人工智慧工作負載設計的晶片,它們針對常見的人工智慧操作進行了優化,為訓練和推理任務提供了高性能和高性能。

FPGA(可程式重設邏輯):修復可重編程的功能提供了靈活的功能。它們可以針對特定的人工智慧任務進行最佳化,特別是在需要低延遲的推理場景中。

IOSG:從矽到智能,人工智慧訓練與推理技術棧

IOSG:從矽到智能,人工智慧訓練與推理技術棧

2. 底層軟體: 中介軟體

AI技術堆疊是這一層的關鍵,因為它建構了高階AI框架與底層硬體架構之間的橋樑。 CUDA、ROCm、OneAPI和SNPE等技術加強了高階框架與特定硬體架構之間的聯繫,實現了效能的最佳化。

作為NVIDIA的母校軟體層,CUDA是該公司在AI硬體市場崛起的基石。 NVIDIA的領先地位不僅源自於其硬體優勢,更體現了其軟體與生態系統整合的強大網路效應。

CUDA之所以具有這麼大的影響力,是因為它封裝了AI技術棧,並提供了一套整套已經成為該領域事實上標準的優化庫。這個軟體生態建構了一個強大的網路效應:精通CUDA的AI研究人員和開發人員在訓練過程中將其運用傳播到學術界和產業界。

由此產生的良性循環強化了NVIDIA 的市場領導地位,因為基於CUDA 的工具和庫生態系統對AI 從業者來說越來越堅固。

這種軟硬體的共生不僅鞏固了NVIDIA 在AI 運算領域的領先地位,還賦予了公司顯著的定價能力,這在通常商品化的硬體市場中是很少見的。

CUDA 的主導地位和競爭對手的相對默默無聞可以搶佔一系列重要因素,這些因素創造了顯著的進入障礙。 NVIDIA 在GPU 加速運算領域的先發優勢使得CUDA 能夠在競爭對手站穩跟起之前AMD和Intel等競爭對手擁有出色的硬件,但他們的軟體層缺乏所需的庫和工具,並且無法與現有技術堆疊無縫集成,這就是NVIDIA/CUDA與其他競爭對手之間存在巨大差距的原因。

IOSG:從矽到智能,人工智慧訓練與推理技術棧

3. 翻譯者

TVM(張量虛擬機)、MLIR(多層中間表示)和PlaidML為跨多種硬體架構最佳化AI工作負載的挑戰提供了不同的解決方案。

TVM 來自華盛頓大學的研究,完美能夠為各種設備(從性能GPU 到資源設定的邊緣設備)優化深度學習模型而迅速獲得關注。其優勢相當於端到端的最佳化流程,在推理場景中它完全抽象化了基礎供應商和硬體的差異,使得推理工作負載能夠在不同的硬體上無縫運行,無論是NVIDIA 還是AMD、Intel 等設備。

然而,在推理之外,情況變得更加複雜。人工智慧訓練的硬體可以取代計算這一終極目標完美解決。不過,在這方面有一些值得一提的倡議。

MLIR,Google 的項目,採用了更基礎的方法。透過為多個抽象層級提供統一的中間表示,它旨在簡化整個編譯器基礎設施,以針對推理和訓練範例。

PlaidML,現在由英特爾領導,將自己定位為競賽中的黑馬。它專注於跨多種硬體架構(包括傳統AI加速器外部架構)的可移植性,並展望了AI工作負載在各類運算中的應用平台上無縫運行的未來。

如果這些編譯器中的任何一個能夠很好地整合到技術堆疊中,不影響模型效能,也不需要開發人員進行任何額外修改,這極有可能威脅到CUDA 的護城河。然而,目前MLIR 和PlaidML 還不夠成熟,也沒有很好地整合到人工智慧技術堆疊中,因此它們目前還沒有對CUDA 的主導地位產生明顯的威脅。

IOSG:從矽到智能,人工智慧訓練與推理技術棧

IOSG:從矽到智能,人工智慧訓練與推理技術棧

4. 分散式計算

Ray和Horovod代表了AI領域多元化計算的兩種不同方法,眾多方法都解決了大規模AI應用中可擴展處理的關鍵需求。

由加州大學柏克萊分校的RISELab 開發的Ray 是一個通用靈活計算框架。它在靈活方面表現出色,允許分配機器學習之外的各種類型的工作負載。 Ray 中基於actor 的模型極大地簡化了Python 程式碼的瘋狂化過程,尤其適用於強化學習和其他需要複雜及複習工作流程的人工智慧任務。

Horovod,最初由Uber 設計,專注於深度學習的多次實現。它有效率地為在GPU 和伺服器節點上擴展深度學習過程提供了一種簡潔而的解決方案。 Horovod 的亮點在於使用者介面性和對神經網路資料訓練的優化,這使得其能夠與TensorFlow、PyTorch等主流深度學習框架完美融合,讓開發人員能夠輕鬆地擴展他們現有的訓練程式碼,而無需進行大量的程式碼修改。

IOSG:從矽到智能,人工智慧訓練與推理技術棧

5.結束語:從加密貨幣角度

與現有AI棧的整合對於建立全球計算系統的DePin專案至關重要。這種整合確保了與當前AI工作流程和工具的兼容性,降低了採用的人口。

在加密貨幣領域,目前的GPU網絡,本質上是一個去中心化的GPU租賃平台,這引發了更複雜的AI基礎邁出的初步行動。這些平台先前是Airbnb式的市場,儘管它們對某些應用有用,但這些平台還是支援了真正的全球訓練,而這是推動大規模人工智慧開發的關鍵需求。

像Ray和Horovod這樣的當前全球化計算標準,並不是一些為全球全球化網絡設計,為了真正工作的去中心化網絡,我們需要在這一層上開發另一個框架。懷疑論者甚至認為,由於Transformer模型在學習過程中需要密集的通訊和全局訓練函數的最佳化,它們與全局分佈方法不相容。另外,樂觀主義者正在嘗試提出新的全域運算框架,這些框架可以很好地與全域分佈方法相容Yotta 正在嘗試解決這個問題的一小部分公司之一。

NeuroMesh進一步。它以一種特別創新的方式重新設計了機器學習過程。透過使用預測編碼網路(PCN)去尋找局部局部最小化的收斂,而不是直接去尋找全局損失函數的最佳化解,NeuroMesh解決了全球AI訓練的一個根本障礙。

這種方法不僅實現了外部的硬體化,也使在消費級GPU硬體(如RTX 4090)上進行模型訓練成為可能,從而使AI訓練民主化。具體來說,4090 GPU的運算能力與H100相似,但由於頻寬不足,在模型訓練過程中它們得以充分利用。由於PCN降低了頻寬的重要性,使得這些低端GPU的利用成為可能,這可能會帶來顯著的成本節省和效率提升。

GenSyn,另一家雄心勃勃的加密貨幣人工智慧公司,以建立一套編譯器為目標。 Gensyn的編譯器允許任何類型的計算硬體無縫用於AI工作負載。打個比方,就像TVM對推理的作用同樣,GenSyn 正嘗試為模型訓練建構類似的工具。

如果成功,它可以顯著擴展去中心化AI計算網路的能力,透過高效利用各種硬體來處理更複雜和多樣化的AI任務。這個雄心勃勃的願景,雖然得益於跨硬體架構硬體優化的複雜性和高技術存在風險且緊迫,但如果他們能夠實現這一願景,克服由此導致的系統性能障礙等,這項技術可能會非常重視CUDA 和NVIDIA 的護城河。

關於推理:雙曲線的方法,將可驗證推理與無效計算資源的去中心化網絡結合,體現了相對務實的策略。透過利用TVM等編譯器標準,雙曲線可以利用廣泛的硬體配置,同時保持性能它可以聚合來自多個供應商的晶片(從NVIDIA到AMD、Intel等),包括消費級硬體和高效能硬體。

這些在加密貨幣AI交叉領域的發展著眼於一個未來,AI運算可能變得更有效率、更可近。這些專案的成功不僅取決於它們的技術優勢,還取決於它們與現有的AI工作流程縫製整合的能力,以及解決AI從業者和企業實際關注的能力。

資訊來源:0x資訊編譯自網際網路。版權歸作者IOSG所有,未經許可,不得轉載

Total
0
Shares
Related Posts