來源:澎湃新聞
記者邵文
·在這場AI芯片競賽中,亞馬遜似乎佔據了先機,已擁有兩款AI專用芯片——訓練芯片Trainium和推理芯片Inferentia,谷歌則擁有第四代張量處理單元(TPU)。相比之下,微軟等還在很大程度上依賴於英偉達、AMD和英特爾等芯片製造商的現成或定制硬件。
圖片來源:由無界AI工俱生成
本週,挑戰英偉達AI芯片王者地位的競爭又加速了。
北京時間5月19日,Meta公司披露其正在構建首款專門用於運行AI模型的定制芯片——MTIA(Meta Training and Inference Accelerator)芯片,使用名為RISC-V的開源芯片架構,預計於2025年問世。
同樣在這週,微軟發布了一系列芯片相關招聘信息,其中一則寫道,“我們正在尋找一名首席設計工程師在充滿活力的微軟AISoC(人工智能芯片及解決方案)團隊中工作。”據稱,該團隊正在研究“能夠以極其高效的方式執行複雜和高性能功能的尖端人工智能設計”。換句話說,微軟某種程度上已把自己的未來寄託在人工智能開發機構OpenAI的一系列技術上,想要製造出比現成的GPU(圖形處理器)和相關加速器更高效的芯片來運行這些模型。
當下,英偉達還是當之無愧的“AI算力王者”,A100、H100系列芯片佔據金字塔頂尖位置,是ChatGPT這樣的大型語言模型背後的動力來源。然而,不管是為了降低成本,還是減少對英偉達的依賴、提高議價能力,科技巨頭們也都紛紛下場自研AI芯片。
粗略統計,微軟、谷歌、亞馬遜這3家公司已經推出或計劃發布8款服務器和AI芯片。
粗略統計,微軟、谷歌、亞馬遜這3家公司已經推出或計劃發布8款服務器和AI芯片。弗雷斯特研究公司(Forrester)主管格倫·奧唐奈(Glenn O’Donnell)認為,“如果你能製造出針對人工智能進行優化的芯片,那麼你就會取得巨大的勝利。”
根據目前幾家海外科技巨頭在AI芯片方面的最新動作和進展,總體看來,在這場競賽中,亞馬遜似乎佔據了先機,已擁有兩款AI專用芯片——訓練芯片Trainium和推理芯片Inferentia,谷歌則擁有第四代TPU(張量處理單元)。相比之下,微軟等還在很大程度上依賴於英偉達、AMD和英特爾等芯片製造商的現成或定制硬件。
谷歌:最早自研TPU芯片
早在2013年,谷歌就已秘密研發一款專注於AI機器學習算法的芯片,並將其用在內部的雲計算數據中心中,以取代英偉達的GPU。 2016年5月,這款自研芯片公諸於世,即TPU。 TPU可以為深度學習模型執行大規模矩陣運算,例如用於自然語言處理、計算機視覺和推薦系統的模型,其最初專為谷歌的超級業務雲計算數據中心而生。
2020年,谷歌實際上已在其數據中心部署了人工智能芯片TPU v4。不過直到今年4月4日,谷歌才首次公開了技術細節:相比TPU v3,TPU v4性能提升2.1倍。
基於TPU v4的超級計算機擁有4096塊芯片,整體速度提高了約10倍。谷歌稱,對於類似大小的系統,谷歌能做到比Graphcore IPU Bow(Intelligence Processing Unit,智能處理單元)快4.3-4.5倍,比英偉達A100快1.2-1.7倍,功耗低1.3-1.9倍。
在谷歌發布TPU v4的技術細節後,英偉達也非常巧合地發布了一篇博客文章。在文章中,創始人兼CEO黃仁勳指出A100芯片是3年前發布的,最近發布的H100芯片提供的性能比A100高出四倍。
目前,谷歌已將負責AI芯片的工程團隊轉移到了谷歌云,旨在提高谷歌云出售AI芯片給租用其服務器的公司的能力,從而與更大的競爭對手微軟和亞馬遜雲科技(AWS)相抗衡。今年3月,生成式人工智能明星企業Midjourney選擇了谷歌云,稱其正在使用基於雲的TPU來訓練機器學習模型。
亞馬遜:訓練和推理芯片佔據先機
從2013年推出首顆Nitro1芯片至今,AWS是最先涉足自研芯片的雲廠商,已擁有網絡芯片、服務器芯片、人工智能機器學習自研芯片3條產品線。
2018年初,科技媒體Information爆料亞馬遜已經開始設計定制AI芯片。
AWS自研AI芯片版圖包括推理芯片Inferentia和訓練芯片Trainium。 2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在雲端運行圖像識別、語音識別、自然語言處理、個性化和欺詐檢測等大規模機器學習推理應用程序。
“運行機器學習的速度和成本——最理想的是深度學習——是企業的競爭優勢。速度優勢將決定企業的成敗,這種速度只能通過定制硬件來實現,Inferentia是AWS進入這個遊戲的第一步。”研究機構Constellation Research的分析師霍爾格·穆勒(Holger Mueller)在當時表示,谷歌在TPU基礎設施方面有2-3年的領先優勢。
2020年底,AWS推出專用於訓練機器學習模型的Trainium。 “我們知道我們想繼續提高機器學習訓練的性價比,所以我們將不得不投資自己的芯片。”AWS首席執行官安迪·賈西(Andy Jassy)在發布會當天稱。
2023年初,專為人工智能打造的Inferentia 2發布,將計算性能提高了三倍,加速器總內存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。 Inf2實例(可通過芯片之間的直接超高速連接支持分佈式推理)最多可支持1750億個參數,這使其成為大規模模型推理的有力競爭者。
在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在服務器中提供兩種類型芯片(標準計算芯片和用於訓練與運行機器學習模型的專用芯片)的雲提供商,其在2015年收購以色列芯片設計公司Annapurna Labs為這些努力奠定了基礎。
今年5月初,亞馬遜CFO布萊恩·奧爾薩夫斯基(Brian Olsavsky)在財報電話會議上告訴投資者,該公司計劃將支出從零售業務轉移到AWS,部分原因是為了投資支持ChatGPT等應用所需的基礎設施。亞馬遜的一位發言人拒絕詳細說明這筆錢將花在什麼地方,但根據公司年報,其基礎設施成本包括芯片。
微軟:用Athena替代昂貴的A100/H100
4月18日,科技媒體The Information報導稱,微軟正在秘密研發自己的AI芯片,代號雅典娜(Athena)。該芯片由台積電代工,採用5nm先進製程,計劃最早於明年推出。
這篇報導稱,微軟自2019年以來就一直在開發一款定制的專用芯片,用於為大型語言模型提供動力,目前已在測試階段。 Athena的首個目標是為OpenAI提供算力引擎,以替代昂貴的英偉達A100/H100。如果明年大規模推出,Athena將允許微軟內部和OpenAI的團隊同時訓練和推理模型。
SemiAnalysis的分析師迪倫·帕特爾(Dylan Patel)表示,開發類似於雅典娜的芯片可能每年需要花費1億美元左右,ChatGPT每天的運營成本約70萬美元,大部分成本來源於昂貴的服務器,如果雅典娜芯片與英偉達的產品擁有同等競爭力,每個芯片的成本將可以降低三分之一。
微軟官網的招聘信息。
從微軟本周公布的一系列招聘信息看,該公司對定制芯片的興趣超越了AI加速器。據其尋找設計驗證工程師的招聘帖,該職位所屬的矽計算開發團隊將研究針對雲工作負載的SoC(系統級芯片,也稱片上系統)設計,這表明微軟正在考慮採用類似於亞馬遜Graviton系列的定制處理器。
微軟還在微軟雲的硬件系統和基礎設施部門招聘了一名DPU(數據處理單元)的矽工程師和一名封裝設計工程師。這並不令人驚訝,因為微軟在1月收購了DPU供應商Fungible。與此同時,後一個職位將負責“為各種數據中心產品領域”的“高性能計算芯片設計提供先進的封裝解決方案”,這也表明微軟的目標是跟隨亞馬遜的腳步,為各種計算應用構建定制芯片。
Meta:控制堆棧的每一層
Meta在採用AI友好的硬件系統方面歷來進展緩慢,這阻礙了其與穀歌和微軟等競爭對手保持同步的能力。直到2022年,Meta還主要使用CPU(中央處理器)和專為加速AI算法而設計的定制芯片組合來運行其AI工作負載。對於這類任務來說,CPU的效率往往不如GPU。後來,Meta取消了於2022年大規模推出定制芯片的計劃,轉而訂購了價值數十億美元的英偉達GPU。
為了扭轉局面,Meta已經在開發內部芯片,並於5月19日公佈了AI訓練與推理芯片項目,稱其為“針對推理工作負載的內部定制加速器芯片系列”。 “為了在我們的重要工作負載中獲得更高水平的效率和性能,我們需要一個為模型、軟件堆棧和系統硬件共同設計的定制解決方案。”Meta基礎設施副總裁亞歷克西斯·比約林(Alexis Bjorlin)在接受采訪時稱。
據介紹,MTIA芯片的功耗僅為25瓦,佔英偉達等市場領先供應商芯片功耗的一小部分,並使用了RISC-V(第五代精簡指令處理器)開源架構。
Meta稱,它在2020年創建了第一代MTIA——MTIA v1,基於7Nano工藝。在其設計的基準測試中,MITA芯片在處理“低複雜性”和“中等複雜度”的AI模型時比GPU更高效。
值得注意的是,Meta於5月初收購了英國AI芯片獨角獸Graphcore的AI網絡技術團隊。 Graphcore創始人奈傑爾·圖恩(Nigel Toon)曾公開表示,Graphcore不屬於CPU、GPU和ASIC(專用計算芯片)中的任何一類,而是一款全新的,專為AI加速而生的處理器:既有極高的運算能力以處理高性能計算業務(HPC),又和GPU一樣可編程,以滿足不同的場景需求。
“構建我們自己的硬件功能使我們能夠控制堆棧的每一層,從數據中心設計到訓練框架。”比約林說,“需要這種水平的垂直整合才能大規模突破人工智能研究的界限。”
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載