NVIDIA推出了NVFP4,這是一種4位精度格式,旨在提高AI訓練的速度和效率,同時保持16位計算的準確性。這一創新是對大型語言模型(LLM)需求大幅上漲的響應,通過優化培訓過程,NVFP4顯著提升了計算基礎設施的性能,減少了內存需求並增加了算術吞吐量。專為應對動態範圍、梯度波動率等挑戰,NVFP4的實驗表現出色,支持更大規模模型訓練。整體而言,NVFP4為AI培訓設立了新的基準,加速了AI技術的發展。
艾里斯·科爾曼(Iris Coleman)2025年8月25日12:33
NVIDIA介紹了NVFP4,這是一種4位精度格式,在保持準確性的同時提高了AI訓練速度和效率,這標誌著大語言模型開發的飛躍。
NVIDIA通過引入NVFP4(一種4位精度格式,有望徹底改變AI模型開發的效率和速度),在AI培訓中取得了長足進步。根據NVIDIA的博客,這種新格式旨在保持16位計算的精度,同時提供4位操作的速度和效率。
AI工作負載和NVFP4
對AI工作負載的需求大幅上漲,尤其是隨著大型語言模型(LLM)的部署,以及在訓練和訓練後階段進行更多令牌的必要性。 NVFP4已成為解決這些需求的重要創新,從而可以顯著提高培訓效率和基礎設施優化。 NVFP4的引入標誌著訓練大型模型的基本轉變,為高性能AI模型開發樹立了新的標準。
了解4位量化
4位量化涉及降低模型權重和激活的精度,這是標準的16位或32位浮點格式的顯著降低。在訓練期間,必須仔細處理這種精度的降低,以保持準確性,同時提高訓練速度。需要專門的技術將高精度張量映射到有效的較小量化值集。
AI工廠的好處
嚴重依賴計算基礎設施的AI工廠將從NVFP4中受益匪淺。通過減少內存需求並提高算術吞吐量,NVFP4使AI工廠可以使用相同的硬件處理更多的令牌。這種進步允許更快的收斂週期和每單位計算的實驗,從而促進了較大模型的發展。
NVFP4的預處理食譜
為了實現4位預處理,NVIDIA開發了量身定制的NVFP4預處理配方。這種方法解決了諸如動態範圍,梯度波動率和數值穩定性之類的挑戰。 Blackwell Architecture憑藉對FP4格式的本機支持,可以加速窄精度矩陣操作,使其非常適合部署基於FP4的預讀的下一代AI工廠。
實際應用和實驗
在12億個參數模型上使用NVFP4進行的實驗證明了其對大規模模型訓練的生存能力。 NVFP4格式支持以萬億範圍的規模進行全面預處理,而無需與超低精度訓練有關的不穩定性或發散問題。 NVFP4的驗證損失曲線與較高精確的基線的驗證曲線非常匹配,證明了其有效性。
總體而言,NVIDIA的NVFP4將通過為速度,效率和有目的的創新提供新的基準來重新定義AI培訓。通過實現4位預處理,NVFP4賦予了人工智能工廠更快,更可持續的規模,為下一個生成AI時代鋪平了道路。作為一種動態和不斷發展的技術,NVFP4繼續為建立前沿模型的團隊開闢新的機會。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載