根據NVIDIA的數據,訓練後量化(PTQ)顯著提升了AI模型的性能與效率,而無需重新培訓。該技術通過降低模型精度來提高推理的延遲、吞吐量和記憶效率。使用FP4等低精度格式能夠釋放更大的效率。 NVIDIA的Tensorrt模型優化器支持多種量化格式並與流行框架無縫集成,便於跨平台部署。高級校準技術如AWQ確保在不損害性能的情況下保持模型準確性。 PTQ優化後,模型可導出為量化檢查點,實現便捷共享和部署,推動AI應用的發展。
Ted Hisokawa 2025年8月2日09:41
根據NVIDIA的數據,NVIDIA的訓練後量化(PTQ)在AI模型中提高了性能和效率,並利用NVFP4之類的格式進行了優化的推理而無需重新培訓。
NVIDIA是通過訓練後量化(PTQ)優化人工智能模型的開創性進步,該技術可提高性能和效率而無需重新訓練。正如NVIDIA報導的那樣,此方法以受控方式降低了模型精度,從而顯著提高了延遲,吞吐量和記憶效率。該方法是通過FP4等格式獲得吸引力,這些格式提供了可觀的收益。
量化簡介
量化是一個過程,它使開發人員可以從訓練中進行過多的精度,從而更快地推斷和減少記憶足跡。傳統型號以FP16,BF16或FP8等完整或混合精確格式進行培訓。但是,進一步量化了較低的精度格式(例如FP4)可以釋放更大的效率提高。 NVIDIA的Tensorrt模型優化器通過提供用於應用這些優化的靈活框架來支持此過程,包括校準技術,例如平滑和激活感知的權重量化(AWQ)。
PTQ帶有Tensorrt模型優化器
Tensorrt模型優化器旨在優化推理的AI模型,並支持廣泛的量化格式。它與Pytorch和擁抱的面孔等流行框架無縫集成,從而促進了各種平台上的輕鬆部署。通過將模型量化為NVFP4等格式,開發人員可以在保持準確性的同時實現模型吞吐量的顯著增加。
高級校準技術
校準方法對於確定量化的最佳縮放因子至關重要。諸如Min-Max校準之類的簡單方法可能對離群值敏感,而SpooterQuant和AWQ等高級技術則提供了更強大的解決方案。這些方法通過平衡激活平滑度與重量縮放來幫助保持模型準確性,從而在不損害性能的情況下確保有效量化。
量化NVFP4的結果
將模型量化為NVFP4提供了最高水平的壓縮量,從而導致主要語言模型的令牌生成吞吐量的大幅加速。這是在保留模型原始準確性的同時實現的,證明了PTQ技術在增強AI模型性能方面的有效性。
導出PTQ優化模型
一旦使用PTQ進行了優化,就可以將模型導出為量化的擁抱面部檢查站,從而促進跨不同推理引擎的輕鬆共享和部署。 NVIDIA在擁抱麵線上的模型優化器收集包括現成的檢查點,使開發人員能夠立即利用PTQ優化的模型。
總體而言,NVIDIA在訓練後量化方面的進步正在通過實現更快,更有效的模型而不犧牲準確性來改變AI的部署。隨著量化技術的生態系統的不斷增長,開發人員可以期望將來的性能提高。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載