路易莎·克勞福德(Luisa Crawford)於2025年7月2日表示,DeepSwe-Preview在開源AI領域設定了新基準,成功率達59%。該高級編碼代理基於QWEN3-32B模型,利用強化學習(RL)處理4,500個現實時軟件工程任務,表現優異。 Agentica團隊開放數據和訓練日誌,促進了協作和創新。 DeepSwe-Preview展現出處理複雜任務的能力,採用測試時間縮放(TTS)提高表現,未來將探索更大模型及不同領域的應用。此項目是推動AI開發民主化的重要步驟。
路易莎·克勞福德(Luisa Crawford)7月2日,2025年17:58
高級編碼代理DeepSwe-Preview在開源AI中設置了新的基準測試標準,並在SWE-Bench驗證的,使用加強學習的最先進的性能上取得了59%的成功率。
在AI驅動的軟件開發方面的重大進步中,DeepSwe-Preiview已成為一種開創性的開源編碼代理。根據AI的數據,該代理通過Agentica團隊與AI共同開發,該代理利用強化學習(RL)在SWE-Bench驗證的基准上實現了59%的通過率。
革命性的軟件工程
DeepSwe-Preview建立在QWEN3-32B型號的基礎上,僅利用RL來增強其功能。這種方法允許代理商勝過其他開放權重編碼代理,達到16%的1張速度和16率的通過率為71.0%。該模型在六天內使用64 H100 GPU進行了培訓,並處理了從R2E-GYM培訓環境中採購的4,500個現實世界軟件工程任務。
利用RLLM的力量
Agentica的框架為培訓後語言代理人RLLM促進了DeepSwe-Preiview的培訓。該框架允許對數據集,代碼和培訓日誌進行開源,從而鼓勵使用RL擴展和改善代理的協作努力。現在可以向公眾提供將32B模型開發為智能編碼代理的完整培訓配方,從而促進透明度和創新。
新興行為和表現
DeepSwe-Preview在訓練過程中表現出了新興行為,例如預期邊緣病例和進行徹底的回歸測試。這些功能對於處理複雜的軟件工程任務至關重要,這需要導航廣泛的代碼庫並確保與現有功能兼容。
測試時間擴展和進一步的發展
DeepSwe-Preiview採用測試時間縮放(TTS)來增強其性能,結合了基於執行和基於執行的驗證方法。這種混合縮放策略大大提高了其通過@1性能,將其與其他模型區分開來。未來的研究旨在探索更大的模型並將功能擴展到包括網絡代理在內的不同領域。
DeepSwe-Preiview是使AI開發民主化的關鍵步驟,展示了強化學習解決長期培訓,在軟件工程中的多步挑戰的潛力。憑藉其開源性質,它邀請全球研究界為成功做出貢獻和建立。
圖像來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權歸作者所有,未經許可,不得轉載