全世界最大的超算Frontier 使用3072 塊AMD GPU 訓完超兆參數LLM

根據新智元1 月13 日報道,用AMD的軟硬體系統也能訓練GPT-3.5等級的大模型了。位於美國橡樹嶺國家實驗室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888個MI250X GPU和9472個Epyc7A53CPU。最近,研究人員只使用了其中8%左右的GPU,就訓練了一個GPT-3.5規模的模型。研究人員成功地使用ROCM軟體平台在AMD硬體上成功地突破了分散式訓練模式的許多困難,建立了使用ROCM平台在AMD硬體上為大模型實現最先進的分散式訓練演算法和框架。成功地在非英偉達和非CUDA平台上為高效訓練LLM提供了可行的技術架構。訓練完成後,研究人員將在Frontier上訓練大模型的經驗的總結成了一篇論文,詳細描述了期間遇到的挑戰以及克服的困難。

Total
0
Shares
Related Posts