NVIDIA與Amazon Web Services(AWS)聯合推出AI和SageMaker HyperPod的整合,旨在提升AI培訓的可擴展性和管理效率。此合作將AWS SageMaker HyperPod與NVIDIA RUN:AI的GPU編排平台結合,優化多個GPU資源,顯著縮短模型培訓時間。 SageMaker HyperPod通過自動處理基礎設施故障提高系統彈性,確保培訓連續性。 NVIDIA運行:AI為IT管理員提供中心化管理GPU資源的接口,支持動態縮放,有效降低成本。這一集成為企業提供了靈活且高效的AI基礎架構解決方案。
艾里斯·科爾曼(Iris Coleman)2025年6月24日12:39
NVIDIA運行:AI和AWS SageMaker HyperPod集成以簡化AI訓練,在混合雲環境中提供了增強的可擴展性和資源管理。
Nvidia Run:AI和Amazon Web Services(AWS)揭示了一項戰略整合,旨在增強複雜的AI培訓工作負載的可擴展性和管理。根據NVIDIA的說法,這項合作將AWS Sagemaker Hyperpod與NVIDIA RUN:AI的高級AI工作量和GPU編排平台合併,有望提高效率和靈活性。
簡化AI基礎架構
AWS Sagemaker HyperPod旨在為大型分佈式培訓和推理提供一個彈性和持久的集群。通過優化多個GPU的資源利用,它可以大大減少模型培訓時間。此功能與任何模型體系結構都兼容,使團隊可以有效地擴展培訓工作。
此外,SageMaker HyperPod通過自動檢測和處理基礎設施故障來提高彈性,從而確保不間斷的培訓工作恢復而沒有大量停機時間。這種能力可以加速機器學習生命週期並提高生產率。
NVIDIA運行:AI的中心化管理
NVIDIA運行:AI為跨混合環境(包括本地和雲設置)提供了用於AI工作負載和GPU編排的中心化接口。這種方法使IT管理員可以在各個地理位置上有效地管理GPU資源,從而在需求尖峰時促進無縫的雲爆發。
AWS和NVIDIA RUN:AI的技術團隊都對集成進行了徹底的測試。它允許用戶在受益於NVIDIA RUN:AI的GPU優化和資源管理功能的同時利用SageMaker Hyperpod的靈活性。
動態且具有成本效益的縮放
該協作使組織能夠在本地和雲環境中無縫地擴展其AI基礎架構。 NVIDIA運行:AI的控制平面允許企業在本地或云中有效地管理GPU資源。該功能支持動態縮放,而無需過度提供硬件,從而在保持性能的同時降低了成本。
Sagemaker Hyperpod的靈活基礎架構是大規模模型培訓和推斷的理想選擇,使其適用於專注於培訓或微調基礎模型的企業,例如Llama或穩定的擴散。
增強的資源管理
NVIDIA運行:AI可確保AI基礎架構有效地使用了其高級調度和GPU分級功能。這種靈活性對管理波動需求的企業特別有益,因為它適應了計算需求的轉變,減少了空閒時間並最大程度地提高了GPU投資回報率。
作為驗證過程的一部分,NVIDIA運行:AI測試了幾個關鍵功能,包括混合和多群集管理,硬件故障後的自動求職以及推理服務。這種集成代表了在混合環境中管理AI工作負載方面邁出的重要一步。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載