作者| 羅輯程心
編輯| 莊顏排版| 李帛錦
來源:自象限
回顧過去幾次世界變革的歷史會發現,每隔100 年世界就會重新交易所一次霸權。
只要是成為了霸主,他的技術等核心優勢就會變得普世化,被其他國家和民族所掌握,從而被追平。如果霸主想“續命”,需要有一次根本的技術革命。英國靠著工業革命,續費了100 年的霸業。
在ChatGPT 出現之前,美國基本上已經走到100 年霸主的末端,他的技術優勢已經被更多國家掌握,甚至在互聯網的某些領域,中國還曾出現反超之勢。想要續命要再靠一場技術革命。以ChatGPT 為代表的大模型開啟的AI 2.0 時代,很可能就是。
這是新一輪排位賽的開始。面臨技術差距,中國大模型一邊技術赶超,另一邊也在走一條更“接地氣”的路。
本文為自象限策劃的「ChatGPT啟示錄」系列一部分。
圖片來源:由無界AI工俱生成
“百度幾乎將整個集團所有的A100 都調給了文心一言。”
2 月份百度“衝刺”文心一言時,一位接近百度的人士對「自象限」描述了當時的激烈戰況。
當然,在大模型訓練上,不止百度“勒緊了腰帶”。即使是微軟,在AI 大模型初始期算力上也並不寬裕。 2023 年3 月中旬,微軟發文透露:曾斥資數億美元,使用了數万個英偉達A100 芯片幫助OpenAI 組裝了一台AI 超級計算機。
兩個現象表現了算力在AI 大模型訓練上的重要性,作為AI 大模型的三要素的之一,在芯片發展受限的背景下,許多人將中國AI 大模型的薄弱和短板粗暴歸結於中國芯片的不足。
但實際上,芯片算力只是整個AI 大模型的訓練的一個起點,圍繞著芯片的算力是一個巨大而復雜的系統。
除了不同芯片的架構和設計,還有建立在芯片之上的軟件開發系統,和雲的計算存儲資源,以及圍繞這兩者工具和平台。
如果說ChatGPT 這把火已經燎原,那算力,就是點燃它的火種。
但在熱鬧錶像下面,算力正在成為生成式AI 大模型發展最大的桎梏,這種桎梏表現在許多方面,從我們所熟知的芯片性能的不足,再到芯片開發操作系統的視野盲區,甚至是對雲計算底層的重構,都成為了即將要攻克的關鍵問題。
“泛而不強”的中國芯片
面對中國算力短缺的問題,更多人是“知其然不知所以然”,本質是因為整個算力體系相當複雜,而芯片只是中間最重要的一部分。
通常來講,我們說的算力包含三部分,即基礎算力、智能算力和超算算力,而AI 大模型主要依靠的是智能算力。
所謂智能算力,就是由GPGPU、FPGA、ASIC 這樣可以加速AI 計算的芯片組成的服務器平台提供的算力,它們負責大模型的訓練和推理。據IDC 數據,2021 年中國人工智能服務器工作負載中,57.6% 的負載用於推理,42.4% 用於模型訓練。
▲ 圖源:信達證券研報
雖然可以提供的智能算力的芯片有三類,但GPGPU 其實佔了目前主流市場90% 的份額,剩下的10% 才是FPGA、ASIC 之類的產品。
GPU 市場份額更大在於其通用化。
梳理中國算力的發展脈絡,大致趨勢可以以深度學習和大模型為節點劃分為三個階段,包括前深度學習時代,深度學習時代和大模型時代。 2015 年,以AlphaGo 為節點,算力進入大模型時代。
在大模型時代之前,人臉識別、語音識別還是AI 的主要應用場景。這個階段大多數訓練就已經是基於GPGPU 來實現的了,也因此GPGPU 形成了目前最為成熟、完備的軟件生態。由於其芯片特點,GPGPU 的通用性也更強,架構也更適合AI 大模型的訓練和部署。
而相應的,作為定制化和半定制化的FPGA 和ASIC,就只能應用在一些針對性的垂類領域。因此它們對模型的成熟度、對企業的模型研究深度都有更高的要求。
簡單來講,通用型的GPGPU 適合剛入門的小白和資深大牛在內的所有人,而FPGA 和ASIC 作為定制款就只適合真正有經驗的“玩家”。當然,通過這樣的定制化之後,FPGA 和ASIC 芯片的產品和解決方案也有更高的性價比。
在應用場景的基礎上,芯片的應用在AI 大模型的訓練上又分為訓練和推理兩個具體的環節。目前能夠運行大模型訓練的只有GPGPU,具有代表性的芯片就是英偉達的A100、A800、H100、H800。
但這類芯片目前國內的儲備並不多。據「財經十一人」報導,國內目前擁有超1 萬枚GPU 的企業不超過5 家,其中擁有1 萬枚英偉達A100 芯片的最多只有一家。另有消息提到,目前騰訊、字節、百度英偉達A100 的存量都不超過2000 枚,阿里的存量大約能過萬,而更多公司都只能採用英偉達的中低端性能產品。
事實上也是如此,自A100 和H100 被禁止之後,中國企業就已經將目光放到了它的替代品A800 和H800 上了。目前,國內幾家頭部互聯網企業都向英偉達下了1.5 萬~1.6 萬左右的A800 和H800 訂單,涉及金額大概在十億美金左右。
當然,國內其實也有自己的AI 芯片,甚至在上一個國產芯片風口中起來的大多數有名有姓的企業做的都是應用在雲端的AI 芯片。
比如壁仞科技、燧原科技、天數智芯、寒武紀等等,都有自己的GPU 產品,甚至部分產品的理論指標都不錯。
比如寒武紀最好的產品思元270,在硬件指標上大概就能接近英偉達的A100,而且價格比A100 還低,百度在訓練文心一言時就小規模的部署了一些。
而之所以沒有實現大規模部署,原因其實有兩方面,一個是寒武紀的這款芯片智能運行大模型的推理部分,即它並不是一個通用的GPU。而另一方面在於,寒武紀目前還不具備大規模部署的能力。
這種大規模部署的能力具體又分為兩點,一個是其供應鍊是否能夠支撐起芯片的大規模出貨,畢竟一旦大規模部署,一個公司的需求就是上萬枚。而另一個關鍵點在於,當大規模出貨之後,寒武紀還需要為客戶配備大量的人力配合開發,而寒武紀在這方面目前也有沒大力推動的意願。
而除了國內領先的半導體公司之外,國內芯片的整體水平還是比較低的,有業內資深專家表示:“目前國產芯片的性能整體在英偉達的30% 左右。”
AI 大模型的訓練要求芯片能夠處理高顆粒度的信息。但目前國產GPU 大多對信息處理的顆粒度不高,還不具備支撐大模型訓練所需的能力。
另一方面,目前的國產GPU 大多只能處理單精度的的浮點運算,比如壁仞科技BR100、天數智芯的智鎧100,以及面提到的寒武紀思元270 等等,它們在FP32 的理論指標上做得不錯,但沒有處理FP64 的能力。
目前從公開信息來看,國內唯一能支持FP64 雙精度浮點運算的只有海光推出的DCU 深算一號,但它性能只有A100 的60% 左右。
▲ 圖源:科創板日報
除了這些專業做芯片的半導體公司之外,國內的互聯網大廠也幾乎都有自己的AI 芯片。
比如阿里在2019 年發布的含光800,百度在2020 年發布的崑崙芯,騰訊在2021 年發布的紫霄,以及華為的昇騰系列等等。
但這些大廠的AI 芯片大多也都屬於的定製版本,在應用上也面臨諸多限制。
除了前面提到寒武紀的芯片只能用在推理之外,華為的昇騰通用性也很差,它只能應用在MindSpore 這類華為自己的開發框架下,以及他們優化好的大模型上。任何公開的模型都必須經過華為的深度優化才能在華為的平台上運行。
當然華為也有自己的優勢,即昇騰芯片涉及的所有IP 都是買斷的,不會存在技術被卡脖子的問題。同時華為圍繞自己的AI 大模型和芯片建立了一系列的算法和軟件,實現了自己的閉環。
整體上,從芯片的角度國產算力的長征才剛剛開始,我們在部分細分領域實現了一定的程度的國產替代,但仍然無法實現更多環節存在性能不足和算力漏洞。
而隨著大模型的發展越來越熱,市場對算力的需求仍將呈指數級上漲,國產芯片廠商既要解決算力問題,還要解決軟件生態和工具的問題,難度可想而知,但市場留給我們時間卻不多了。
雲for AI 有戲,AI for 雲差千里
縱然“雲智一體”已經成為了討論的前提,在眾多關於雲與智能關係的論調中,無非是雲計算巨大的存儲和計算空間,能夠幫助大模型訓練大幅度降低成本。
但這卻並不足以道出其中乾坤。
用一個形象的比喻,雲與AI 就像是新能源與自動駕駛的關係。傳統燃油車的架構複雜,在智能化改造方面,並沒有足夠的空間去安裝攝像頭、激光雷達和芯片,只有在新能源車簡化了發動機系統和整車架構的前提下,才使得自動駕駛硬件和軟件有接入的空間,並以智能化為目標重塑整車結構。當下新能源與智能化如同一對雙生子,同步向前邁進。
同理,在傳統的存儲和計算架構中,並沒有那麼強的彈性和空間,能夠適應AI 訓練過程中的變化和應用,用傳統服務器和存儲結構訓練大模型,簡直是用諾基亞手機玩原神。而云計算的存在,既保證了快速響應、快速變化的空間,連接了底層硬件和上層應用,同時也給了大模型訓練更強的算力支撐,可以說,沒有云,就不會有大模型。
▲ 圖源浙江證券股份有限公司
從2012 年開始,中國以阿里雲為“帶頭大哥”開始了一段雲計算的征程。 10 年過去了,在全球排名上,阿里雲已經僅次於亞馬遜AWS 和微軟Azure,排在世界第三的位置,在基礎設施的建設和算力準備上,可以說中美並沒有拉開太大差距,這也是為什麼,在《ChatGPT 啟示錄系列| 萬字長文解碼全球AI 大模型現狀》一文中,我們強調中國在大模型上有一定的底氣,而日本錯過了雲時代,也就錯過了AI。
但在多模態大模型和AIGC 的進一步推動下,對雲計算能力提出了新的要求。 AIGC 需要多模態數據和強大的模型,包括不限於時序、文檔、寬表、結構化、非結構化、圖片數據等,還要將各類數據融合在一起,提供存儲、使用能力和推理能力,這是中國雲廠商將要面臨的新挑戰。
不過,雲for AI 解決的仍然是發電問題,AI for 雲解決的才是發電效率的問題。前者的重點在於“車能不能跑起來”,而後者的重點在於“車能跑的多快”。
這來自於AI 對雲計算底層架構的改造。
以基礎軟件中,國內跑的最快的數據庫為例。在阿里雲瑤礦池數據庫峰會上,李飛飛不斷強調“智能化是未來雲原生數據庫發展的動力”。用智能化的技術接入數據庫的運維,比如異常檢測、HA 切換、參數調參等等。
異常檢測場景的智能化可能要更為容易理解,假設該數據股票在10 張表格,按列分佈,非智能化數據庫(包括傳統數據庫和雲原生數據庫)的檢測模式,需要將這10 張表逐列檢測,最終定位故障點。而分佈式則可以將10 張表拆開同時檢測,用一張表的時間跑完十張表,提高檢測效率。但智能化數據庫則可以通過引入AI 能力,制定檢測標準,精准定位、精準打擊,將檢測時間從10 分鐘縮短到幾秒。
這不僅需要強大的AI 能力,也是不斷測試不斷優化模型的結果,最終讓云成為智能雲。
帶這個思考重新看“2019 年,微軟Azure 花10 億美元買斷OpenAI 成為其獨家供應商”,就更加感嘆納德拉的老奸巨猾。一方面,Azure 成為OpenAI 的獨家供應商後,所有基於ChatGPT 和GPT4 的MaaS(模型即服務)服務都長在Azure 上,這將為Azure 快速獲得市場份額,甚至有反超AWS 的可能。另一方面,OpenAI 通過Azure 訓練自己的AI 大模型,也快速、高強度打磨了Azure 的智能化能力,目前Azure 是全球排名第一的智能雲。
微軟負責雲計算和AI 業務的執行副總裁斯科特・格思裡(Scott Guthrie)在接受采訪時說:“我們並沒有為OpenAI 定制任何東西,儘管其最初是定制的,但我們總是以一種泛化的方式構建它,這樣任何想要訓練大型語言模型的人都可以利用同樣的改進技術。這真的幫助我們在更廣泛的範圍內成為更好的AI 智能雲。”
目前,微軟已經在努力使Azure 的AI 功能變得更加強大,推出了新的虛擬機,使用英偉達的H100 和A100 Tensor Core GPU,以及Quantum-2 InfiniBand 網絡。微軟表示,這將允許OpenAI 和其他依賴Azure 的公司訓練更大、更複雜的AI 模型。
反觀國內智能雲隊伍,僅有百度智能雲獨自站在冷風裡吆喝了幾年,但在「自象限」看來,百度智能雲離真正的智能雲還相差甚遠。百度雲的“智能”在於通過雲服務提供AI 能力,比如推薦算法、人臉識別,但這只是服務內容的不同,換湯沒換藥。
不過從李彥宏近期的發言來看,似乎也想明白了“進化”的方向,但可以肯定的是,中國智能雲的故事不會只有百度一家,阿里騰訊華為的動作也都在鎂光燈下。
「自象限」根據公開信息了解到,4 月11 日,阿里雲峰會中阿里巴巴董事局兼主席張勇出席,或將在會上正式推出阿里大模型,接下來還有各類行業應用模型面世;4 月18 日,在火山引擎原動力大會中,字節跳動副總裁、火山引擎業務負責人楊震原的出現,也讓業內不少人士期待和推測,是否會發布字節跳動的大模型。
然而無論是技術驅動還是市場驅動,一方面在硬件算力上持續突破,另一方面在軟件算力方向試圖彎道超車,在算力長征路上,中國要補的課、要打的仗都還很多。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載