據IT 之家7 月13 日報導,外媒Semianalysis 近日對OpenAI 今年3 月發布的GPT-4 大模型進行了揭秘,其中包括GPT-4 模型架構、訓練和推理的基礎設施、參數量、訓練數據集、token 數、成本、混合專家模型(Mixture of Experts)等具體的參數和信息。外媒表示,GPT-4 在120 層中總共包含了1.8 萬億參數,而GPT-3 只有約1750 億個參數。而為了保持合理的成本,OpenAI 採用混合專家模型來進行構建。據悉,GPT-4 使用了16 個混合專家模型(mixture of experts),每個有1110 億個參數,每次前向傳遞路由經過兩個專家模型。此外,它有550 億個共享注意力參數,使用了包含13 萬億tokens 的數據集訓練,tokens 不是唯一的,根據迭代次數計算為更多的tokens。 GPT-4 預訓練階段的上下文長度為8k,32k 版本是對8k 微調的結果,訓練成本相當高,外媒表示,8x H100 也無法以每秒33.33 個Token 的速度提供所需的密集參數模型,因此訓練該模型需要導致極高的推理成本,以H100 物理機每小時1 美元計算,那麼一次的訓練成本就高達6300 萬美元(約4.51 億元人民幣)。對此,OpenAI 選擇使用雲端的A100 GPU 訓練模型,將最終訓練成本降至2150 萬美元(約1.54 億元人民幣)左右,用稍微更長的時間,降低了訓練成本。