微軟推出專為大語言模式訓練客製化的FP8 混合精準度訓練框架,比BF16 快64%

根據IT 之家11 月10 日報道,為了提高處理速度,降低記憶體使用量和通訊成本,來自Microsoft Azure 和Microsoft Research 的一組研究人員推出了一個高效的FP8 混合精度框架,專為大語言模型( LLM)訓練量身訂做。微軟引進了三個最佳化階段,利用FP8 進行分散式和混合精準度訓練。隨著這些層級的進展,FP8 整合程度的提高變得明顯,這表明對LLM 訓練過程的影響更大。微軟經過測試,與廣泛採用的BF16 混合精度方法相比,記憶體佔用減少27% 至42%,權重梯度通訊開銷顯著降低63% 至65%。運行速度比廣泛採用的BF16 框架(例如Megatron-LM)快了64%,比Nvidia Transformer Engine 的速度快了17%。在訓練GPT-175B 模型時,混合FP8 精度框架在H100 GPU 平台上節省21% 的內存,而且相比較TE(Transformer Engine),訓練時間減少17%。

Total
0
Shares
Related Posts