NVIDIA於2025年6月4日概述了複製MLPERF V5.0 LLM基準測試培訓得分的過程,重點在於硬件要求和逐步執行。報告特別關注Llama 2 70B Lora微調和Llama 3.1 405B預處理,目標是實現高達2.6倍的性能提升。基準測試需在特定硬件下進行,比如NVIDIA DGX B200、GB200 NVL72系統,同時需要大容量存儲。 NVIDIA使用了管理集群的基本命令管理器(BCM),並提供了詳細的執行步驟和日誌分析,以優化模型性能。詳見NVIDIA博客。
彼得張(Peter Zhang)6月4日,2025年18:17
NVIDIA概述了複製LLM基準測試的MLPERF V5.0培訓得分的過程,強調硬件先決條件和逐步執行。
NVIDIA詳細介紹了從MLPERF V5.0基準測試的訓練分數的過程,特別關注Llama 2 70B Lora微調和Llama 3.1 405B預處理。正如Sukru Burc Eryilmaz在NVIDIA博客上報導的那樣,這項倡議是Nvidia先前宣佈在MLPERF培訓v5.0中取得高達2.6倍的表現的。這些基準是MLPERF綜合評估套件的一部分,旨在衡量機器學習模型的性能。
基準測試的先決條件
要運行這些基準,必須滿足特定的硬件和軟件要求。對於Llama 2 70B Lora,必須使用NVIDIA DGX B200或GB200 NVL72系統,而Llama 3.1 405b需要至少四個通過Infiniband連接的GB200 NVL72系統。此外,需要大量的磁盤空間:Llama 3.1和300 GB的2.5 TB用於Lora微調。
集群和環境設置
NVIDIA使用了由NVIDIA基本命令管理器(BCM)管理的集群設置,該設置需要基於Slurm,Pyxis和Enroot的環境。建議在RAID0中配置的快速本地存儲,以最大程度地減少數據瓶頸。網絡應結合NVIDIA NVLINK和INFINIBAND,以獲得最佳性能。
執行基準
執行過程涉及多個步驟,從構建Docker容器並下載必要的數據集和檢查點開始。基準測試使用Slurm運行,並帶有一個配置文件詳細詳細介紹超參數和系統設置。該過程旨在靈活,可以根據不同的系統尺寸和要求進行調整。
分析基準日誌
在基準測試過程中,生成包括關鍵MLPERF標記的日誌。這些日誌為初始化,培訓進度和最終準確性提供了見解。最終目標是實現目標評估損失,這標誌著成功完成基準。
有關更詳細的說明,包括特定的腳本和配置示例,請參閱NVIDIA博客。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載