馬薩諸塞州劍橋——來自麻省理工學院(MIT) 和哈佛大學的研究人員進行了一項突破性的合作,推出了一個開創性的開源框架FAn,以徹底改變實時對象檢測、跟踪和跟踪。該團隊的論文題為“跟隨任何事物:開放集檢測、跟踪和實時跟隨”,展示了一個有望消除現有機器人對象跟隨系統限制的系統。
麻省理工學院通過FAn 打破障礙:一種開放集的對象跟踪方法
FAn 解決的核心挑戰是機器人系統對新物體的適應性。傳統的系統受到封閉集結構的限制,只能處理預定義範圍的對像類別。 FAn 打破了這一限制,引入了一種開放集方法,可以實時檢測、分割、跟踪和跟踪任何對象。值得注意的是,它可以通過文本、圖像或點擊查詢等輸入動態適應新對象。
多模態奇蹟:FAn 融合ViT 模型和實時處理
FAn 的關鍵功能之一是其多模式功能,支持來自不同來源的輸入,例如文本描述、圖像和查詢。研究人員巧妙地將尖端的ViT(視覺轉換器)模型合併為一個有凝聚力的單元,使FAn 能夠實時處理數據。該框架的多功能性延伸到其在機器人技術中的適用性,特別是在微型飛行器上,有望實現實際部署。
FAn 效率的關鍵在於其重新檢測機制,該機制可以解決跟踪對像被遮擋或跟踪中斷的情況。與在此類場景中苦苦掙扎的現有系統相比,這是一個進步,增強了框架在現實場景中的穩健性。
研究團隊將FAn 的主要目標定義為將感興趣的物體保持在機器人系統的視野內。實現這一目標涉及各種模型和技術的複雜編排。分段任何模型(SAM) 承擔分段任務,而DINO 和CLIP 等模型則有效地吸收自然語言中的視覺概念。為了確保輕量級且有效的檢測和語義分割,研究人員設計了一種創新方案。此外,FAn 利用(Seg)AOT 和SiamMask 等模型進行實時對象跟踪。一個值得注意的補充是引入了專為精確對象跟踪而設計的輕型視覺伺服控制器。
揭示FAn 的潛力:零樣本檢測、跟踪和實時性能
該團隊的實驗展示了FAn 在零樣本檢測、跟踪和跟踪各種物體方面的強大能力。該系統無縫地遵循研究目標,展示了其在實時場景中有效執行的能力。
FAn 能力的影響是巨大的。 FAn 的開放式設計為對象跟踪提供端到端解決方案,使其能夠適應廣泛的對像類別。再加上其多模式輸入和實時處理能力,FAn 成為一種能夠適應新環境的多功能工具。此外,研究團隊對開放性的承諾體現在他們決定將FAn 框架作為開源資源發布。此舉預計將促進眾多現實世界應用程序的創新和協作。
有興趣探索FAn 框架的人可以在項目的GitHub 存儲庫上訪問其代碼。有關FAn 設計、實現和結果的全面見解可以在arXiv 上的研究論文“Follow Anything:開放集檢測、跟踪和實時跟踪”中找到。
麻省理工學院和哈佛大學的FAn 系統代表了機器人和物體跟踪領域的巨大進步。其開放式設計、多模式功能、實時處理能力以及對新環境的適應性使其有別於傳統的封閉式系統。通過突破機器人系統所能實現的界限,FAn 為創新和實際應用開闢了新的途徑。它作為開源框架的發布標誌著一種推進技術的協作方法,使FAn 系統為機器人領域做出了重大貢獻。
資訊來源:由0x資訊編譯自CRYPTOPOLITAN。版權歸作者Randa Moses所有,未經許可,不得轉載