伊隆馬斯克宣佈在孟菲斯使用NVIDIA H100 GPU 進行GROK 3 培訓


伊隆馬斯克正式宣佈在孟菲斯超級電腦設施開始GROK 3 訓練,該設施配備了NVIDIA 當前一代H100 GPU。馬斯克稱該設施為“世界上最強大的AI 訓練集群”,該設施於週一開始運行,借助單一RDMA 結構上的100,000 個液冷H100 GPU。

此次訓練定於孟菲斯當地時間凌晨4:20 進行。馬斯克在隨後的推文中表示,全球「最先進的人工智慧」可能在今年12 月開發出來。馬斯克也在X 上發布了這項成果,並祝賀xAI、X 和NVIDIA 團隊的出色工作。

@xAI 團隊、@X 團隊、@Nvidia 及其支援公司所做的出色工作,孟菲斯超級集群培訓於當地時間凌晨4:20 開始。

單一RDMA 結構上有100k 個液冷H100,這是世界上最強大的AI 訓練集群

— 伊隆馬斯克(@elonmusk) 2024 年7 月22 日

xAI 改變策略並取消Oracle 伺服器交易

此前,xAI 和Oracle 之間價值100 億美元的伺服器交易被取消。馬斯克表示,xAI 超級運算工廠最初預計在2025 年秋季投入運營,目前已提前開始運作。

xAI 之前曾將其AI 晶片外包給Oracle,但後來決定放棄,以開發自己的先進超級電腦。該項目現在計劃利用最先進的H100 GPU 的潛力,每個GPU 的成本約為30,000 美元。 GROK 2 使用了20,000 個GPU,而GROK 3 需要五倍的GPU 來建立更複雜的AI 聊天機器人。

另請閱讀:伊隆馬斯克就特斯拉50 億美元xAI 投資徵求公眾意見

這非常令人驚訝,尤其是因為NVIDIA 最近剛剛宣布即將發布基於Hopper 架構的H200 GPU。決定開始使用H100 GPU 進行訓練,而不是等待H200 或即將推出的基於Blackwell 的B100 和B200 GPU。 H200 GPU 於第二季投入量產,預計將大幅提高效能,但xAI 的當前重點是利用現有的H100 基礎設施來實現其雄心勃勃的目標。

分析師質疑孟菲斯超級集群的電力供應

人工智慧和半導體專家Dylan Patel 最初對孟菲斯超級集群的運行電力問題表示擔憂。他指出,目前7 兆瓦的電網供應只能維持約4,000 個GPU。田納西河谷管理局(TVA) 預計將為該設施提供50MW 的電力,該協議預計將於8 月1 日簽署。然而,滿足全部電力需求所需的變電站要到2024 年底才能完工。

我向伊隆致敬,他真是太棒了。刪除了推文。
是的,現在電網只有8MW,一旦他們簽署TVA 協議,8 月1 日將有50MW。到年底將有200MW,100k GPU 只需要155MW,但是
目前有32k 在線,其餘的將在第四季度上線。
3 個月的100k h100 將獲得與當前GPT 5 運行類似的效果pic.twitter.com/NQp3M5ruu8

— 迪倫·帕特爾@ICML (@dylan522p) 2024 年 7 月 23 日

在分析衛星影像時,帕特爾指出,馬斯克使用了14 台VoltaGrid 行動發電機,每台發電機可產生2.5 兆瓦的電力。這些發電機總共可產生35 兆瓦的電力。加上來自電網的8 兆瓦,總發電量達到43 兆瓦,足以為約32,000 個H100 GPU 供電,但功率會有所限制。

資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Brenda Kanana所有,未經許可,不得轉載


Total
0
Shares
Related Posts