機器人研究迎來ImageNet時刻:一個資料集,讓DeepMind具身智慧大模型突飛猛進


為什麼機器人技術遠遠落後於NLP、視覺和其他AI 領域?除其他困難外,資料短缺是罪魁禍首。 GoogleDeepMind 聯合其他機構推出了Open X-Embodiment 資料集,並訓練出了更具能力的RT-X 模型。

圖片來源:由無界AI生成

在大模型不斷取得突破的2023,把大模型當作大腦來輔助運作的具身智慧機器人研究也正在快速推進。

2 個多月前,GoogleDeepMind 推出了第一個控制機器人的視覺– 語言– 動作(VLA)模型-RT-2。這個模型讓機器人不僅能解讀人類的複雜指令,還能看懂眼前的物體(即使物體以前從未見過),並且依照指令採取動作。例如,你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

當時,一位谷歌高層稱,RT-2 是機器人製造和程式設計方式的重大飛躍。 「由於這一變化,我們不得不重新考慮我們的整個研究規劃了。」

更令人吃驚的是,時間僅僅過了兩個多月,DeepMind 的這個機器人模型又進步了,而且一下就提高了兩倍。

這是怎麼實現的呢?

我們知道,機器人通常在做某件事上非常專業,但通用能力很差。一般情況下,你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變數往往需要從頭開始。但是,如果我們能將各種機器人學的知識結合起來,創造出訓練通用機器人的方法呢?

這就是DeepMind 在過去一段時間所做的事情。他們匯集了來自22 種不同機器人類型的數據,以創建Open X-Embodiment 數據集,然後在之前的模型(RT-1 和RT-2)的基礎上,訓練出了能力更強的RT-X(分別為RT-1-X 和RT-2-X)。

他們在五個不同的研究實驗室測試了RT-1-X 模型,結果顯示,與針對每個機器人獨立開發的方法相比,新方法在五種不同的常用機器人中平均成功率提高了50% 。他們還表明,在上述數據集上訓練的RT-2-X 在現實世界機器人技能上的表現提高了2 倍,而且,透過學習新數據,RT-2-X 掌握了許多新技能。這項工作表明,在來自多個機器人類型資料上訓練的單一模型比在來自單一機器人類型資料上訓練的模型在多個機器人上的表現要好得多。

值得一提的是,這項研究並非由DeepMind 獨立完成,而是他們與33 個學術實驗室通力合作的結果。他們致力於以開放和負責任的方式開發這項技術。

目前,Open X-Embodiment 資料集和RT-1-X 模型檢查點已經對廣泛的研究社群開放。

英偉達高級人工智慧科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

Google研究員Karol Hausman也表達了同樣的感嘆:機器人的ImageNet時刻終於到來了。

Open X-Embodiment 資料集,機器人的ImageNet 時刻

資料集以及基於資料集訓練的模型在推進AI 進步方面發揮了關鍵作用。正如ImageNet 推動了電腦視覺的研究,Open X-Embodiment 也推動了機器人技術的發展。

一直以來,建立多樣化資料集是訓練通用模型的關鍵,這些訓練好的模型可以控制許多不同類型的機器人,遵循不同的指令,對複雜任務進行基本推理,並有效地進行泛化。然而,對於任何單一實驗室來說,收集這樣的資料集都過於耗費資源。

為此,DeepMind 與33 家機構的學術研究實驗室展開合作,從而建構了Open X-Embodiment 資料集。他們從22 個機器人實例中收集數據,這些數據涵蓋超過100 萬個片段,展示了機器人500 多項技能和在150,000 項任務上的表現。該數據集是同類中最全面的機器人數據集。

來自Open X-Embodiment 資料集的樣本,包括500 多種技能和150000 個任務。

Open X-Embodiment 基本訊息

RT-1-X:成功率提升50%

RT-X 是基於兩個robotics transformer(RT)模型建構而成。

具體而言,他們使用RT-1 訓練RT-1-X,其中RT-1 是建立在Transformer 架構上的35M 參數網絡,專為機器人控製而設計,如圖3 所示。

此外,他們還在RT-2 上訓練RT-2-X,其中RT-2 是一系列大型視覺語言動作模型(VLA),在網路規模的視覺和語言資料以及機器人控制資料上訓練而成。

為了評估RT-1-X,DeepMind 將其與在特定任務上(例如開門)開發的模型進行了比較。結果顯示,使用Open X-Embodiment 資料集訓練的RT-1-X 平均表現優於原始模型50%。

RT-1-X 平均成功率比原始方法增加50%。

來自不同合作機構的關於RT-1-X 的效果展示

RT-2-X:無障礙解鎖新技能

為了研究RT-X 的知識遷移能力,DeepMind 又進行了其他實驗。這些實驗涉及RT-2 資料中心化不存在的物件和技能,但這些物件和技能存在於另一個機器人的資料中心化。結果表明,在掌握新技能方面,RT-2-X 的成功率是其之前的最佳模型RT-2 的三倍。這也說明了,與其他平台的資料進行聯合訓練可以為RT-2-X 賦予原始資料中心化不存在的額外技能,使其能夠執行新穎的任務。

上圖展示了RT-2-X 對物體之間空間關係的理解。

一系列結果表明,RT-2-X 實現了RT-2 以前無法實現的技能,包括對空間更好的理解。例如,如果我們要求機器人「將蘋果移到布料附近」、又或要求機器人「將蘋果移到布料上」,為了實現目標要求,機器人會採取完全不同的軌跡。只需將介詞從“near”更改為“on”,就可以調整機器人採取的動作。

RT-2-X 表明,將其他機器人的資料結合到RT-2-X 訓練中可以改善機器人的任務執行範圍,但前提是使用足夠高容量的架構。

RT-2-X (55B): 迄今為止在學術實驗室執行未知任務的最大模型之一

研究啟發:機器人需要相互學習,研究人員也是一樣

機器人研究正處於令人興奮的早期階段。 DeepMind 的這項新研究表明,透過利用更多樣化的數據和更好的模型進行擴展學習,有可能開發出更有用的輔助機器人。與世界各地的實驗室合作並分享資源,對於以開放和負責任的方式推動機器人研究至關重要。 DeepMind 希望透過開放資料來源和提供安全但有限的模型來減少障礙,並加快研究。機器人技術的未來有賴於機器人之間的相互學習,最重要的是,讓研究人員能夠互相學習。

這項工作證明,模型可以在不同環境下通用,無論是在谷歌DeepMind 的機器人上,還是在世界各地不同大學的機器人上,其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與RoboCat 的自我完善特性結合,使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同資料集的混合會如何影響跨具身智能體泛化,以及這種泛化是如何是實現的。

如果你想了解有關RT-X 的更多信息,可以參考DeepMind 發布的這篇論文:

論文連結:https://robotics-transformer-x.github.io/paper.pdf 計畫連結:https://robotics-transformer-x.github.io/

參考連結:https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts