新測試面臨大多數AI模型發展的停滯狀態


tool_ai

非營利組織ARC獎宣布創建了一項新的複雜測試,以衡量領先的AI模型的智能。

大多數神經網絡無法應對ARC-AGI-2。他的測試包括類似於難題的任務,在該任務中,人工智能需要從一組多色正方形中確定視覺模式並生成正確的答案網。

新測試處於大多數AI模型的停滯狀態ARC-AGI-2的問題的一個示例。數據:弧獎。

該測試旨在迫使AI適應他以前從未遇到的新問題。

在ARC-AGI-2通過期間,來自OpenAI和R1的O1-Pro等“合理的”神經網絡從1%增至1.3%。在強大的非爭議人工智能中,例如GPT-4.5,Claude 3.7十四行詩和雙子座2.0 Flash,指標約為1%。

為了比較,平均而言,人們正確回答了60%的問題。為了進行分析,該基金要求對400人進行測試。

Francois Sholle組織的共同創始人強調,新的基準旨在衡量人工智能的靈活性,而不是記住技能。

今天,我們正在發布Arc-Agi-2。它的AI基準旨在衡量一般的流體智能,而不是記憶的技能– 人類發現容易的一組從未見過的任務,但當前的AI在努力。

它保持與Arc-agi-1的格式相同,而… pic.twitter.com/9mdyu48znp

-FrançoisChollet(@fchollet)2025年3月24日

他補充說,與Arc-Agi-1不同,新測試不允許模型依靠“總功率” – 使用大量計算資源來搜索解決方案。這是先前版本的基準測試的主要缺點。

“智力不僅取決於解決問題或取得高度結果的能力。獲得和應用這些技能的有效性是最重要的,確定組成部分。我們問的主要問題不僅是它是否可以獲取 [навык] 解決問題,以及以什麼效率或價格來解決 [он это сделает]”, – ARC獎基金會Greg Camradt的共同創始人說。

AI模型在大約五年內無法通過Arc-Agi-1,直到2024年12月,Openai發布了“ Thinking” AI O3。他用人類指標均等。

新測試處於大多數AI模型的停滯狀態O3模型(低)的版本在ARC-AGI-1測試中得分為75.7%,在ARC-AGI-2中得分4%。數據:弧獎。

以前,通過文件系統中的操作,專注於O1審視的論點,獨立而沒有提示將測試環境入侵,以免將Stockfish輸入國際象棋中。

回想一下,儘管使用了禁止的動作,但2025年1月,領先的神經網絡在國際象棋錦標賽中喪生。

在社交網絡上訂閱0x資訊

資訊來源:由0x資訊編譯自FORKLOG。版權歸作者Владимир Слипер所有,未經許可,不得轉載


Total
0
Shares
Related Posts