OpenAI「打死都不說」的GPT-4 訓練細節被傳出,這是我的解讀


原文來源:少數派

圖片來源:由無界AI 生成

那是前幾天一個普通的上午。我正在日常搬磚,突然各路信息席成交量而來:「趕緊的,GPT-4 模型構架洩露啦,國產大模型要再次超越啦」

打開社媒一看,好麼,都不用會英語,國內的人翻機翻都已經上線了,這速度,我是真的服氣。但是,等我去追根溯源,看看信息到底有幾分靠譜的時候,我突然就有把科技圈逛出了娛樂圈的感覺。

鑑於目前「Fake News」滿天飛的互聯網現狀,我看到這個消息後,幹的第一件事就是追本溯源。

▍來龍去脈

我信息挖礦的起點是黑客News 上分享的、通過Thread Reader 提取的推文串(存檔於7 月11 日)。點開一看,上來就是兩句:

GPT-4’s details are leaked.
It is over.

這標題黨水平完全不遜色於國內。

眾所周知,OpenAI 在發布GPT-4 的同時打破了自己對open 的承諾,沒有透露任何權重或技術細節,被業界廣泛批評。這大概就是博主為什麼要用 It is over 這個梗來渲染「情節反轉」的戲劇效果。

再看內容,正是OpenAI 守口如瓶的GPT-4 訓練細節。這些信息前面有過很多猜測,但是官方一直都沒有披露,提到的時候都說的很模糊(原文比較晦澀,用了很多縮寫和行話,一些會在後文解釋):

模型參數量:1.8 萬億,比GPT-3.5(1750 億)大10 倍左右。模型層深:120 層。模型構架:混合專家模型(MoE,解釋見後文),一共16 個「專家」,每個專家1110 億參數量。每次向前傳遞推理(生成一個token 的輸出)選擇兩個專家。訓練數據:共13T(13 萬億個)token 的數據。文本數據被重複訓練了2 次,代碼數據被重複訓練了4 次。這個數據其實挺重要的,後續具體分析。並行策略:8 路張量並行+ 16 路管道並行。有多個位於不同數據中心的多個GPU 集群同時訓練,每個集群有128 個GPU。預訓練上下文:8K。 32K 版本是在8K 基礎上微調的。訓練成本:在約25000 張A100 上,以大約2.15e25 flops 的速率,持續訓練90 至100 天。按照每張A100 小時1 美元,大約需要6300 萬美元。 (如今可在約55 天內使用約8192 張H100 完成,費用估算為2150 萬美元。)

問題是,這些信息是怎麼弄來的,是否靠譜呢?

順藤摸「瓜」,我又找到了這串推文的發布者——Yam Peleg。

這老哥的賬號雖然我沒關注,但還真看過他以前的文章。他是以色列一個「創業公司」的CEO(但成立有15 年,可能再叫創業公司不太合適了);本人工程經歷豐富,很懂大語言模型,曾經嘗試反向破解過GPT-4 和ChatGPT 代碼解釋器。今年六月,OpenAI 成員訪問以色列的時候,Peleg 還去參加座談溝通了,並且還和CEO Sam Altman 合影。

讀這老哥的文章,我就禁不住想起來在以色列時候見過的一位學生聯絡員Tom,隨便說點啥都能給你搞得熱血沸騰的。

左起:Sam Altman、Yam Peleg(來源:@Yampeleg)

考慮到這老哥一直在研究OpenAI,也認識OpenAI 內部很多人,所以他如果得到了點啥內部消息,我覺得可信度其實還挺高的。

但等我晚上準備去仔細研讀下他發的東西的時候,突然發現他把前面發的都刪了。本來我以為是被OpenAI 摀嘴了,還慶幸自己留了檔。後面仔細一看,發現不是因為OpenAI 要求刪除,而是因為他也是從一個付費專欄轉述的,被人投訴侵犯了版權。

這篇原始來源是一個叫做 SemiAnalysis 的Substack 專欄,他們稍早之前發了一篇題為 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE 的文章,放在付費牆後。

查了一下得知:

SemiAnalysis 是一個精品半導體研究和諮詢公司,專注於從化學原料到晶圓廠到設計IP 和戰略的半導體供應鏈。該公司由Dylan Patel 創辦,一位有著多年半導體行業經驗的分析師和工程師。 Patel 曾在英特爾、AMD、高通等公司擔任過從設計工程師到市場營銷經理等的角色。
SemiAnalysis 的團隊還包括多位專業的半導體分析師和諮詢顧問。他們各自有著不同的專長領域,如AI、雲計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計IP 和戰略的全方位的半導體供應鏈分析和諮詢服務。

早些時候,SemiAnalysis 還發過一篇文章披露谷歌工程師在內部通信中說「我們沒有護城河,但OpenAI 也沒有」(We Have No Moat, And Neither Does OpenAI),引起不小議論。這篇文章後面被證實為真。

這樣看來,Dylan Patel 老哥可能確實有些內線,他們給出的信息可信度應該還是可以的。

至於他們為啥這麼急著讓Yam 老哥刪推——因為這些「內部信息」確實價值不菲,訂閱SemiAnalysis 的付費文章,一年要500 美元。 Yam 老哥訂閱的精英版更是要1000 美元。

▍梳理分析

根據這個來龍去脈,我的看法是,這個傳聞還是有一定的可信度的。以下則是我基於這些信息的一些分析,提出來供大家討論。

私有模型的競爭將中心化在並行能力上

根據此次傳聞,目前如果要訓練一個GPT-4 競品,按照使用約8,192 個H100 芯片來估算,以每小時2 美元的價格,在約55 天內可以完成預訓練,成本約為2150 萬美元(1.5 億人民幣)。

這個成本對於目前波濤洶湧的LLM 市場來說,真的不算大。國內目前的主要玩家都可以比較輕鬆地承擔數次訓練。所以,這次說真的,再過半年模型能力(起碼參數規模)對標GPT-4 可能真的不是吹牛。

如果訓練成本不是問題,那麼訓練數據會不會成為問題呢?我認為也不會。傳聞稱,GPT-4 的訓練數據共13T(13 萬億個)token。作為對比,CommonCrawl 和RefinedWeb 兩個公開數據集都是5T 個token,傳聞稱,餘下部分來源Twitter、Reddit 和YouTube;一些訴訟還主張OpenAI 使用了來自LibGen、SciHub 等「影子圖書館」的盜版數據。

因此,我認為這個數據規模並不是不可企及,再加上國內本身也增持了很多中文資源,所以訓練數據也應該問題不大。

其他的類似預訓練、微調以及中文編解碼等問題,其實也不存在太多的技術秘密,方法還是比較公開的。給足夠的資源,半年時間應該都可以解決。

所以,最後剩下的門檻就是並行能力了。其實這次傳聞裡面用了極大的篇幅去介紹相關的內容,專業程度還是比較高的,這裡我只能做些粗淺解釋。

粗略地說,所謂並行問題,就是你有了大模型,如何以最低的成本讓最多的人同時使用。這裡面涉及到很多專業的設計問題,在運算資源固定的情況下,應該如何分配不同環節的運算資源?如何處理並發?如何管理內存?

並行處理的能力直接決定了用戶體驗。目前基於GPT-3.5 的ChatGPT 和API 都比較流暢了,這是非常厲害的。這里大家可能會說,我體驗的其他國產LLM 或者Claude 都比GPT-3.5 還快啊。但是,大家沒有考慮使用的量級問題,GPT-3.5 在這麼高的並發下有這樣的性能,其他的廠商如果匹配不了OpenAI 的這個能力,也就沒能力來搶OpenAI 的市場。

所以,並行能力可能會成為各路OpenAI 競爭對手的角逐重點之一。

GPT-5 的重點在於多模態

前面提到,傳聞稱GPT-4 是由16 個專家模型組成的「專家混合」(mixture of experts, MoE)模型。這裡簡單解釋一下什麼是「專家混合」,這是指將用戶的「問題」劃分成若干子問題,每個子問題交給一個較小的模型(也就是一個「專家」)去解決,然後通過一個「路由模型」進行選擇和組合,再輸出給用戶。

傳聞進一步稱,GPT-4 的每個「專家」有1110 億參數量——相當於GPT-3(這個和Sam Altman 前期說的GPT-4 參數甚至小於GPT-3.5 相符),其中有550 億個參數是共享的。每次向前傳遞推理(生成一個token 的輸出)使用兩個「專家」,事實上耗費的參數量約為2800 億。這個數字顯著小於不用MoE 所需的數量,也和前期很多學者預測的類似。

值得注意的是,傳聞指出GPT-4 訓練所用的文本和代碼數據都是被重複使用過的。再結合使用MoE 構架的選擇,我個人猜測:要么目前可以比較方便獲取的高質量文本數據已經接近枯竭,要么無限制增大數據量對LLM 性能的提升已經非常有限了。

但是,無論是哪一種情況,GPT-5 想要有大的性能突破,就必須能夠充分利用現存的大量視頻、圖片以及音頻數據,換言之是一個「多模態」的模型。

問題在於,根據這次的傳聞,OpenAI 目前的視覺多模態並沒有太多的過人之處。它是一個獨立的視覺編碼器,使用文本做輸入進行預訓練,然後使用約2 萬億個代幣進行微調。這種訓練方式,明顯無法充分利用已有的視頻、圖片以及音頻數據。

所以,OpenAI 一直強調還沒有訓練GPT-5,大概率是真話。在訓練GPT-5 之前,他們還得找到一個更好的多模態模型構架,讓模型可以充分利用音視頻數據。而只有能夠利用這些優質的訓練數據,GPT-5 才有可能獲得足夠的能力提升。 (同時,如果GPT-5 真的能夠充分利用這些音視頻數據的話,那不管是AGI 還是OpenAI 最近提出的「超智體」,似乎確實也沒那麼遙遠了。)

OpenAI 可能是有意放出的本次傳聞

這個推論就完全是個人的瞎猜了。事實根據不足,大家看看就好。

我的理解是,OpenAI 很清楚GPT-4 的護城河並不深;在如今這種熱潮中,競爭對手迎頭趕上也並不困難。並且如上分析,他們現在的多模態大模型構架應該還沒有搞定,這個時候如果有新的玩家上來就從多模態開始突破,OpenAI 被彎道超車的概率也是很大的。

所以,這也許是OpenAI 的緩兵之計——我就給你們透露一些GPT-4 的信息,讓頭部的玩家都先去做GPT-4 的複刻工作,把OpenAI 已經走過的路也再走一遍。

如果在這個過程中,OpenAI 給GPT-5 的訓練打好了基礎,完成了多模態大模型的前期攻關,即使GPT-4 已經被其他的大語言模型超越,OpenAI 也不慌了。個人認為,多模態很可能就是人成交量人的最後一代了,再未來的模型開發和演進說不定就以AGI 為主力了。也就是說,這次贏了,可能就贏到最後了。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts