Odaily星球日報訊 根據上週五發布的一篇新研究論文,斯坦福大學和華盛頓大學的人工智能研究人員能夠以不到50 美元的雲計算積分訓練一個人工智能“推理”模型。 在衡量數學和編碼能力的測試中,被稱為s1 的模型表現類似於尖端推理模型,例如OpenAI 的o1 和DeepSeek 的r1。 s1 模型以及用於訓練它的數據和代碼可在GitHub 上找到。 s1 背後的團隊表示,他們通過提煉(distillation)創建了人工智能模型,這是一種通過訓練另一個人工智能模型的答案來提取“推理”能力的過程。研究人員表示,s1 是從谷歌的推理模型之一Gemini 2.0 Flash Thinking Experimental 中提煉出來的。提煉是伯克利研究人員上個月以約450 美元的價格創建人工智能推理模型所採用的相同方法。 s1 背後的研究人員正在尋找實現強大推理性能和“測試時間擴展”的最簡單方法,或者讓AI 模型在回答問題之前進行更多思考。這些是OpenAI 的o1 中的一些突破,其他AI 實驗室試圖通過各種技術複製這些突破。 s1 論文提出,可以使用一種稱為監督微調(SFT)的過程,利用相對較小的數據集提煉推理模型,在此過程中,明確指示AI 模型模仿數據集中的某些行為。 SFT 往往比DeepSeek 用於訓練其對OpenAI 的o1、R1 的答案的大規模強化學習方法更便宜。 s1 基於阿里巴巴旗下中國AI 實驗室Qwen 的一個小型現成AI 模型,可免費下載。為了訓練s1,研究人員創建了一個僅包含1,000 個精心策劃的問題的數據集,並附上這些問題的答案以及Google 的Gemini 2.0 Flash Thinking Experimental 中每個答案背後的“思考”過程。 據研究人員稱,在使用16 個Nvidia H100 GPU 不到30 分鐘的時間內訓練s1 後,s1 在某些AI 基準測試中取得了強勁的表現。參與該項目的斯坦福大學研究員Niklas Muennighoff 稱,他現在就可以以大約20 美元的價格租用必要的計算機。 (TechCrunch)