微軟開源創新框架:可將DeepSeek-R1等模型變成AI Agent

Odaily星球日報訊 微軟在官網發布了視覺Agent 解析框架OmniParser 最新版本V2.0,可將DeepSeek-R1、GPT-4o、Qwen-2.5VL 等模型,變成可在計算機使用的AI Agent。與V1 版本相比,V2 在檢測較小的可交互UI 元素時準確率更高、推理速度更快,延遲降低了60%。在高分辨率Agent 基準測試ScreenSpot Pro 中,V2+GPT-4o 的準確率達到了驚人的39.6%,而GPT-4o 原始準確率只有0.8%,整體提升非常大。除了V2,微軟還開源了omnitool,這是一個基於Docker 的Windows 系統,涵蓋屏幕理解、定位、動作規劃和執行等功能,也是將大模型變成Agent 的關鍵工具。 (金十)

Total
0
Shares
Related Posts