斯坦福研究員僅用不到50美元打造AI推理模型,聲稱性能可與OpenAI的o1相媲美


斯坦福大學與華盛頓大學的研究人員成功訓練出名為s1的AI推理模型,成本不到50美元,其表現與OpenAI的o1相當。 s1通過“蒸餾”技術從Google的Gemini 2.0模型進行改進,訓練過程在30分鐘內完成。研究人員認為,即使資金有限,仍然能在AI領域實現創新,挑戰大公司的主導地位。然而,這樣的低成本複制引發關於AI模型商品化的討論,可能威脅大型公司的“護城河”。儘管蒸餾技術便宜,但其並不會創造更強的AI模型。

斯坦福大學與華盛頓大學的人工智慧研究人員在最新發布的研究論文中指出,他們成功以不到50 美元的雲端計算成本,訓練出一個AI 推理模型,且表現媲美OpenAI 的o1。

s1 是如何訓練的?

報導,該模型名為s1,在數學與編程能力測試中,表現媲美OpenAI 的o1 以及DeepSeek 的R1 等最先進的推理模型。 s1 的模型、數據及訓練代碼均已公開於 GitHub

研究團隊表示,他們以一個現成的基礎模型為起點,並透過「蒸餾」技術進行微調。蒸餾(distillation)是一種從另一個AI 模型的答案中提取「推理」能力的方法。斯坦福研究員Niklas Muennighoff 表示,訓練過程若使用16 張Nvidia H100 GPU,不到30 分鐘便可完成。

Niklas Muennighoff 進一步強調,他現在只需花費約20 美元便可租用計算資源實現訓練。

s1 是從Google 的推理模型—— Gemini 2.0 Flash Thinking Experimental 蒸餾而來。這與上個月柏克萊大學研究人員用約450 美元訓練AI 推理模型的方式類似。對某些人來說,少數研究人員即便沒有數百萬美元的資金支持,仍能在AI 領域創新,這是一件令人興奮的事。

但目前Google 雖然允許用戶透過Google AI Studio 平台免費存取Gemini 2.0 Flash Thinking Experimental(但每日有限制)。然而,Google 的條款明確表示「禁止用戶逆向工程其模型,以開發與其AI 產品競爭的服務」。目前Google 尚未對此事發表評論。

AI 巨頭不開心

這種行為對於大型AI 實驗室而言肯定不樂見。 OpenAI 此前就曾指控DeepSeek 不當使用其API 數據來進行模型蒸餾。

研究人員的目標是找到最簡單的方法來實現強大的推理能力與「測試時擴展」(test-time scaling)—— 讓AI 模型在回答問題前能「多思考一下」。這些技術是OpenAI o1 模型的突破點,而DeepSeek 與其他AI 實驗室正試圖透過不同技術來複製這些能力。

根據s1 的論文,推理模型可以透過相對較小的數據集,使用「監督式微調」(SFT)進行蒸餾。 SFT 讓AI 模型在數據中心化明確學習並模仿特定行為。

相比之下,DeepSeek 先前採用了大規模強化學習來訓練其對標OpenAI o1 的模型R1,而SFT 方法的成本通常更低。

大公司的「護城河」在哪裡?

2025 年,Meta、Google 和微軟計劃投資數千億美元來發展AI 基礎設施,其中部分資金將用於訓練新一代AI 模型。

而s1 與DeepSeek 等模型的訓練引發了關於AI 模型商品化的討論。如果一個成本數百萬美元的AI 模型能被低成本複制,那麼這些大公司的「護城河」在哪裡呢?

然而,這樣的大額投資或許仍是推動AI 創新的必要條件。因為儘管蒸餾技術可以廉價地重現現有AI 模型的能力,但它並不會創造出比當前模型大幅更強的AI。

資訊來源:由0x資訊編譯自ZOMBIT。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts