科學家表示,ChatGPT 和Claude 正在“變得有能力處理現實世界的任務”


來自清華大學、俄亥俄州立大學和加州大學伯克利分校的近兩打研究人員合作創建了一種測量大型語言模型(LLM)作為現實世界代理的能力的方法。

OpenAI 的ChatGPT 和Anthropic 的Claude 等法學碩士在過去的一年裡席成交量了科技界,因為事實證明,尖端的“聊天機器人”在各種任務中都很有用,包括編碼、加密貨幣交易和文本生成。

OpenAI 推出網絡爬蟲“GPTBot”,計劃推出下一個模型:GPT-5

通常,這些模型的基準測試是基於它們輸出被認為像人類一樣的文本的能力,或者是根據它們在為人類設計的簡單語言測試中的得分。相比之下,關於法學碩士模型作為代理人的主題發表的論文要少得多。

人工智能(AI) 代理執行特定任務,例如在特定環境中遵循一組指令。例如,研究人員經常會訓練人工智能代理在復雜的數字環境中導航,作為研究使用機器學習安全開發自主機器人的方法。

由於ChatGPT 和Claude 等訓練模型的成本高昂,傳統的機器學習代理(如上面視頻中的代理)通常不會構建為法學碩士。然而,最大的法學碩士已經顯示出作為代理人的前景。

來自清華大學、俄亥俄州立大學和加州大學伯克利分校的團隊開發了一種名為AgentBench 的工具,用於評估和衡量LLM 模型作為現實世界代理的能力,該團隊聲稱這是同類產品中的首創。

根據研究人員的預印本論文,創建AgentBench 的主要挑戰是超越傳統的AI 學習環境(視頻遊戲和物理模擬器),並找到將LLM 能力應用於現實世界問題的方法,以便有效地測量它們。

AgentBench評估方法流程圖。資料來源:劉等人

他們提出了一組多維測試,用於衡量模型在各種環境中執行挑戰性任務的能力。

其中包括讓模型在SQL 數據庫中執行功能、在操作系統中工作、規劃和執行家庭清潔功能、在線購物以及其他一些需要逐步解決問題的高級任務。

根據該論文,最大、最昂貴的模型的性能遠遠優於開源模型:

“[W]我們使用AgentBench 對25 個不同的法學碩士進行了全面評估,包括基於API 的模型和開源模型。我們的結果表明,像GPT-4 這樣的頂級模型能夠處理廣泛的現實世界任務,這表明開發有效的、持續學習代理的潛力。 ”

研究人員甚至聲稱“頂級法學碩士正在變得有能力解決複雜的現實世界任務”,但補充說開源競爭對手仍然“還有很長的路要走”。

資訊來源:由0x資訊編譯自COINTELEGRAPH。版權歸作者Tristan Greene所有,未經許可,不得轉載

Total
0
Shares
Related Posts