路易莎·克勞福德於2025年6月4日報導,NVIDIA的新Blackwell架構在MLPERF培訓V5.0中展現出2.6倍的性能提升,尤其在大型語言模型和其他AI應用領域。 Blackwell引入了第五代NVLINK、第二代變壓器引擎及HBM3E內存,顯著提高了GPU間帶寬,減少了訓練時間。其GB200 NVL72系統在訓練Llama 3.1時速度比Hopper架構快2.2倍。 NVIDIA專注於優化軟件堆棧,推動AI模型的快速發展,滿足日益增長的AI需求。
路易莎·克勞福德(Luisa Crawford)6月4日,2025年17:51
NVIDIA的Blackwell Architecture在MLPERF培訓V5.0中展示了重大的性能改進,在各種基準測試中的訓練時間更快2.6倍。
NVIDIA的最新Blackwell建築在人工智能領域取得了長足的進步,在MLPERF培訓v5.0基準測試期間,表現為2.6倍的性能。根據NVIDIA的說法,這項成就強調了Blackwell帶來的建築進步,尤其是在大型語言模型(LLMS)和其他AI應用程序的苛刻領域。
布萊克韋爾的建築創新
布萊克韋爾(Blackwell)引入了幾種增強功能,而其前身霍珀體系結構。其中包括第五代NVLINK和NVLINK開關技術,可大大增強GPU之間的帶寬。這種改進對於減少訓練時間和增加吞吐量至關重要。此外,Blackwell的第二代變壓器引擎和HBM3E內存有助於更快,更有效的模型培訓。
這些進步使NVIDIA的GB200 NVL72系統能夠取得顯著的結果,例如訓練Llama 3.1 405b型號2.2倍的速度比Hopper架構快。該系統最多可以達到1,960個訓練吞吐量。
跨基準的性能
MLPERF培訓v5.0以其嚴格的基準而聞名,包括跨LLM預讀,文本到圖像生成和圖形神經網絡等各個領域的測試。 NVIDIA的平台在所有七個基準測試中都表現出色,以速度和效率展示其實力。
例如,在使用Llama 2 70B型號的LLM微調中,與使用DGX H100系統相比,Blackwell GPU達到了2.5倍的速度。同樣,穩定的擴散V2預訓練基準的每GPU的性能提高了2.6倍,從而在大規模上創造了新的性能記錄。
含義和未來的前景
性能的改進不僅強調了Blackwell體系結構的功能,還為更快的AI模型鋪平了道路。更快的培訓和微調意味著組織可以將其AI應用程序更快地推向市場,從而提高其競爭優勢。
NVIDIA繼續專注於優化其軟件堆棧,包括Cublas和Cudnn等圖書館,在這些性能增長中起著至關重要的作用。這些優化有助於有效利用Blackwell增強的計算能力,尤其是在AI數據格式中。
有了這些發展,NVIDIA準備進一步推動其在AI硬件中的領導才能,提供滿足複雜和大規模AI模型需求不斷增長的解決方案。
有關NVIDIA在MLPERF培訓v5.0中表現的更詳細的見解,請訪問NVIDIA博客。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載