NVIDIA的TensorRT模型優化器大幅提升了Meta的Llama 3.1 405B大型語言模型在H200 GPU上的效能,實現了效能提升1.44倍。透過動態批次、KV快取和優化注意力核心等技術,此模型的推理吞吐量顯著增強。同時,TensorRT-LLM支援官方FP8量化方案,在維持精確度的情況下,減少推理計算開銷。針對硬體受限的開發者,INT4 AWQ技術也使得Llama 3.1可以僅在兩塊H200 GPU上運行,提供相當的準確度和出色的吞吐量及延遲性能。
Lawrence Jengar 2024 年8 月29 日16:10
NVIDIA 的TensorRT 模型優化器顯著提升了Meta 的Llama 3.1 405B 大型語言模型在H200 GPU 上的效能。
根據NVIDIA 技術部落格報導,得益於NVIDIA 的TensorRT 模型最佳化器,Meta 的Llama 3.1 405B 大型語言模型(LLM) 正在實現新的效能水準。在NVIDIA H200 GPU 上運作時,這些增強功能使吞吐量提高了1.44 倍。
使用TensorRT-LLM 實現出色的Llama 3.1 405B 推理吞吐量
自從模型發布以來,TensorRT-LLM 已為Llama 3.1 405B 提供了出色的推理吞吐量。這是透過各種優化實現的,包括動態批次、KV 快取和優化的注意內核。這些技術加速了推理性能,同時保持了較低的精度計算。
TensorRT-LLM 增加了對官方Llama FP8 量化配方的支持,該配方可計算靜態和動態縮放因子以保持最大精度。此外,使用者定義的核心(例如來自FBGEMM 的矩陣乘法)可透過在編譯時插入網路圖的插件進行最佳化。
使用TensorRT 模型優化器將效能提升高達1.44 倍
NVIDIA 的自訂FP8 訓練後量化(PTQ) 配方可透過TensorRT 模型優化器庫取得,它可增強Llama 3.1 405B 吞吐量並減少延遲,同時不會犧牲準確性。此配方結合了FP8 KV 快取量化和自註意力靜態量化,從而降低了推理計算開銷。
表1 展示了最大吞吐量效能,顯示8-GPU HGX H200 系統上各種輸入和輸出序列長度的效能均有顯著提升。該系統配備八個NVIDIA H200 Tensor Core GPU,每個GPU 配備141 GB HBM3e 記憶體和四個NVLink 交易所,可提供900 GB/s 的GPU 到GPU 頻寬。
最大吞吐量效能– 輸出令牌/秒
8 個NVIDIA H200 Tensor Core GPU
輸入|輸出序列長度
2,048 | 128
32,768 | 2,048
120,000 | 2,048
TensorRT 模型最佳化器FP8
463.1
320.1
71.5
官方駱駝FP8 食譜
399.9
230.8
49.6
加速
1.16x
1.39x
1.44x
表1. Llama 3.1 405B 的最大吞吐量效能(採用NVIDIA 內部測量)
類似地,表2 顯示了使用相同輸入和輸出序列長度的最小延遲效能。
批次大小= 1 效能– 輸出令牌/秒
8 個NVIDIA H200 Tensor Core GPU
輸入|輸出序列長度
2,048 | 128
32,768 | 2,048
120,000 | 2,048
TensorRT 模型最佳化器FP8
49.6
44.2
27.2
官方駱駝FP8 食譜
37.4
33.1
22.8
加速
1.33x
1.33x
1.19x
表2. Llama 3.1 405B 的最低延遲性能(採用NVIDIA 內部測量)
這些結果表明,配備TensorRT-LLM 和TensorRT 模型優化器的H200 GPU 在延遲優化和吞吐量最佳化場景中均能提供卓越的效能。 TensorRT 模型優化器FP8 配方在大規模多任務語言理解(MMLU) 和MT-Bench 基準測試中也實現了與官方Llama 3.1 FP8 配方相當的準確度。
僅在兩塊配備INT4 AWQ 的H200 GPU 上安裝Llama 3.1 405B
對於硬體資源受限的開發人員,TensorRT 模型優化器中的INT4 AWQ 技術可以壓縮模型,讓Llama 3.1 405B 僅安裝在兩個H200 GPU 上。此方法透過將權重壓縮為4 位元整數並使用FP16 對活化進行編碼,顯著減少了所需的記憶體佔用。
表4 和表5 顯示了最大吞吐量和最小延遲效能測量結果,顯示INT4 AWQ 方法提供的準確度分數與Meta 的Llama 3.1 官方FP8 方案相當。
最大吞吐量效能– 輸出令牌/秒
2 個NVIDIA H200 Tensor Core GPU
輸入|輸出序列長度
2,048 | 128
32,768 | 2,048
60,000 | 2,048
TensorRT 模型優化器INT4 AWQ
75.6
28.7
16.2
表4. Llama 3.1 405B 的最大吞吐量效能(採用NVIDIA 內部測量)
批次大小= 1 效能– 輸出令牌/秒
2 個NVIDIA H200 Tensor Core GPU
輸入|輸出序列長度
2,048 | 128
32,768 | 2,048
60,000 | 2,048
TensorRT 模型優化器INT4 AWQ
21.6
18.7
12.8
表5. Llama 3.1 405B 的最低延遲性能(採用NVIDIA 內部測量)
NVIDIA 在TensorRT 模型優化器和TensorRT-LLM 的進步為提高運行Llama 3.1 405B 等大型語言模型的性能和效率鋪平了道路。這些改進為開發人員提供了更大的靈活性和成本效益,無論他們擁有豐富的硬體資源還是更受限制的環境。
圖片來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權所有,未經許可,不得轉載