Openai的O3型號未達到其自己的基準要求

在獨立測試發現它的解決方案比公司最初聲稱的嚴重數學問題少得多，Openai的最新LLM O3正在面臨審查。

當Openai於12月宣布O3時，高管們說，該模型可以回答“ Frontiermath的第四個問題”，這是眾所周知的一組研究生級數學難題。

他們補充說，最好的競爭對手被困在接近2％。 “今天，所有產品都少於2％，”首席研究官Mark Chen在O3和O3迷你直播中說。 “我們看到的是，O3處於積極的測試時間計算設置中，我們能夠獲得超過25％。”

TechCrunch報告說，該結果是由Openai在O3版本上獲得的，該版本使用的計算能力比公司上週發布的模型更多。

星期五，創建Frontiermath的研究所時代的AI為公共O3發布了自己的成績。

Openai與O4-Mini一起發布了O3，這是O4-Mini，這是一個成功的O3 Mini模型。

我們評估了數學和科學基準套件的新模型。導致線程pic.twitter.com/5gbtzkey1b

– Epoch AI（@epochairesearch）2025年4月18日

使用基準的290個問題的更新版本，Epoch將模型的限制約為10％。

結果確實與OpenAI的12月技術論文中的較低型數字相匹配，時代警告說，差異可能是由於各種原因所致。

Epoch寫道：“我們的結果與OpenAI之間的差異可能是由於使用更強大的內部支架，使用更多的測試時間計算，或者是因為這些結果是在前面的另一個子集上運行的，” Epoch寫道。

Frontiermath旨在衡量朝著高級數學推理的進步。 2024年12月的公共場合包含180個問題，而2025年2月的私人更新將礦池擴展到290。

問題列表中的變化和測試時間允許的計算能力量可能會導致報告百分比的大幅波動。

ARC獎基金會的測試也來自於較早的構建，這也來自ARC獎基金會的測試。 X上發布的ARC Price 基金發布了公共發行的“是另一個用於聊天/產品使用”的模型，並補充說：“所有已發布的O3計算層都比我們基準的版本小。”

Openai員工Wenda Zhou在上週的直播中也提供了類似的解釋。他說，生產系統“針對現實世界的用例更優化”和速度。 “我們已經完成了 [optimizations] 使模型更具成本效益 [and] 總體上更有用，”周說，同時承認可能的基準“差異”。

該公司的兩個較小型號，O3 -Mini -High和新宣布的O4 -Mini，已經在Frontiermath上擊敗O3，Openai表示，未來幾週將有更好的O3 -Pro變體。

儘管如此，它表明了基準標題如何誤導。一月份，Epoch因將OpenAI資金披露推遲到O3首次亮相後而受到批評。最近，埃隆·馬斯克（Elon Musk）的創業公司XAI被指控展示了誇大其Grok 3模型功能的K線走勢圖。

行業觀察家說，隨著公司爭奪新車型的頭條新聞，這種基準爭議已成為AI行業的一個發生。

密碼大都會學院：厭倦了市場波動？了解DEFI如何幫助您建立穩定的被動收入。立即註冊

資訊來源：由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Noor Bazmi所有，未經許可，不得轉載