CMU清華MIT引爆全球首個Agent無限流，機器人「007」加班自學停不下來具身智能被革命

文章來源：新智元

編輯：Aeneas 好困

最近，由CMU/MIT/清華/Umass提出的全球首個生成式機器人智能體RoboGen，可以無限生成數據，讓機器人7*24小時永不停歇地訓練。 AIGC for Robotics，果然是未來的方向。

全球首個生成式機器人Agent發布了

長久以來，相較於語言或視覺模型可以在大規模的網路數據上訓練，訓練機器人的策略模型需要帶有動態物理互動資訊的數據，而這些數據的匱乏一直是具身智慧發展的最大瓶頸。

最近，來自CMU、清華、MIT，UMass等機構的研究人員提出了一種全新的RoboGen智能體。

利用涵蓋在大語言模型和生成式模型中蘊含的大規模知識，配以逼真模擬世界提供的物理信息，可以“無限”生成各種任務、場景以及教學數據，實現機器人7×24小時全自動訓練。

現在，我們正在迅速耗盡來自網路的高品質的真實token。全球訓練AI的數據，都快不夠用了。

深度學習之父Hinton表示，「科技公司們在未來18個月內，要使用比現在GPT-4多100倍的算力訓練新模型」。模型參數更大，算力需求龐大，然而數據在哪裡？

面對飢渴的模型，AI合成就是答案。

論文網址：https://arxiv.org/abs/2311.01455

專案首頁：https://robogen-ai.github.io/

開源位址：https://github.com/Genesis-Embodied-AI

具體來說，由MIT-IBM首席科學家淦創帶領的研究團隊，在生成式AI和和可微分物理模擬的加持下，提出了一種「提出-生成-學習」循環，讓Agent能夠自己出題自己訓練機器人。

首先，Agent提出，我們要發展這個技能。

然後，它會產生相應的環境、配置和技能學習指導，來創建模擬環境。

最後，Agent會將提出的上層任務分解為子任務，選擇最佳學習方法，然後學習策略、掌握所提技能。

值得注意的是，整個過程幾乎都不需要人類的監督，而且任務的數量，竟然是──無限個

對於這則重磅的研究，英偉達高級科學家Jim Fan也進行了轉寄。

現在，機器人已經學會一系列炸裂操作——

把物品放到置物櫃：

用微波爐加熱一碗湯：

拉動槓桿沖泡咖啡：

以及後空翻等等：

模擬環境，多樣化技能學習的關鍵

機器人研究中，長期存在這樣一個難題：怎樣賦予機器人多種技能，讓它們在非工廠環境中操作，為人類執行廣泛的任務？

近年來，我們教會了機器人各種複雜的技能，例如流體操縱、投擲物體、踢足球、跑酷等等，然而這些技能卻各自為政，視野較短，需要人工設計的任務描述和訓練監督。

因為現實世界資料收集成本高且費力，這些技能都是在適當領域隨機化的模擬中訓練，然後部署到現實世界中的。

與現實世界中的探索和資料收集相比，模擬環境具有許多優點，例如提供了低級狀態的特權存取和無限的探索機會；支援大規模並行計算，資料收集速度顯著加快；允許機器人開發閉環策略和錯誤恢復能力。

然而，建立模擬環境需要一系列繁瑣的任務（設計任務、選擇相關且語義上有意義的資產、產生合理的場景佈局和配置、制定獎勵或損失函數等訓練監督）。即使在模擬世界中，也極大限制了機器人技能學習的可擴展性。

因此，研究者提出一種「生成模擬」範式，將模擬機器人技能學習的進步與基礎和生成模型的最新進展結合起來。

利用最先進的基礎模型的生成能力，產生模擬可以為模擬中各種機器人技能學習所需的所有階段產生資訊。

由於最新基礎模型中全面的編碼知識，以這種方式產生的場景和任務數據，可能與現實世界場景的分佈非常相似。

此外，這些模型可以進一步提供分解的低階子任務，這些子任務可以透過特定領域的策略學習方法無縫處理，從而產生各種技能和場景的閉環演示。

RoboGen流程

RoboGen是一種全自動流程，可以7x24h地讓機器人學習各種技能，其中包含4個階段：

1. 任務建議；

2. 場景生成；

3. 訓練監督生成；

4. 利用產生的資訊進行技能學習。

利用最新基礎模型的嵌入式常識和生成功能，RoboGen可以自動產生任務、場景和訓練監督，讓機器人的多種技能學習實現規模化。

任務建議

在這階段，RoboGen能夠提出上層任務，產生對應的環境，將上層目標分解為底層子任務，然後依序學習子技能。

首先，RoboGen會產生有意義的、多樣化的、高水準的任務，供機器人學習。

研究者使用特定的機器人類型和從礦池中隨機採樣的對象，來初始化系統。然後將提供的機器人和採樣物件資訊輸入LLM。

這種採樣過程，就確保了生成任務的多樣性。

例如，四足機器人等腿式機器人能夠獲得多種運動技能，而機械手臂操縱器在配對時，有可能執行多種操縱任務與不同的取樣對象。

研究者使用GPT-4在目前的流程中進行查詢。隨後在機械的背景下解釋RoboGen的詳細信息，以及與物件操作相關的任務。

用於初始化的對像是從預先定義的清單中採樣的，包括家庭場景中常見的鉸接式和非鉸接式對象，例如烤箱、微波爐、飲水機、筆記型電腦、洗碗機等。

因為GPT-4接受過大量網路資料集的培訓，所以它對這些物件的可供性、如何與它們互動、它們可以與哪些有意義的任務相關聯，都有著豐富的理解。

例如，假設採樣的鉸接物體是微波爐，其中關節0是連接門的旋轉關節，關節1是控制計時器旋鈕的另一個旋轉關節，GPT-4會回到一個任務——「機器人手臂將一碗湯放入微波爐內，關上門並設定微波爐計時器，適當加熱時間a」。

生成的任務所需的其他對象，有一碗湯a，以及與任務相關的關節和鏈接，包括關節0（用於打開微波爐門）、關節1（用於設置定時器）、鏈接0（門）和連結1（定時器旋鈕）。

對於鉸接物體，由於PartNetMobility是唯一高品質的鉸接物體資料集，並且已經涵蓋了各種鉸接資產，因此將根據採樣資產產生任務。

透過重複查詢不同的採樣物件和範例，可以產生各種操作和運動任務。

場景生成

給定一個任務，就可以繼續產生對應的模擬場景，以學習完成該任務的技能。

如圖所示，根據任務描述產生情境組件和配置，並檢索或產生物件資產，隨後填入模擬場景。

場景組件和配置由以下元素組成: 對要填充到場景中的相關資產的查詢、其物理參數(例如大小)、配置(例如初始關節角度) 以及資產的整體空間配置。

除了上一個步驟中產生的任務所需的必要物件資產之外，為了增加生成場景的複雜性和多樣性，同時類似於真實場景的物件分佈，研究者還讓GPT-4返回與任務語義相關物件的附加查詢。

例如，對於任務「打開櫃子，將玩具放入其中，然後關上它」，生成的場景還會包括客廳墊子、檯燈、一本書和一把辦公椅。

訓練監督生成

為了獲得相關技能，就需要對技能學習進行監督。

RoboGen會先查詢GPT-4，來把長任務規劃和分解成較短範圍的子任務。

一個關鍵假設是，當任務被分解為足夠短的子任務時，每個子任務都可以透過強化學習、運動規劃、軌跡優化等現有演算法可靠地解決。

分解後，RoboGen會查詢GPT-4，選擇合適的演算法來解決每個子任務。

RoboGen中整合了幾種不同類型的學習演算法: 強化學習、演化策略、基於梯度的軌跡最佳化、帶有運動規劃的動作初始化。

每一種都適合不同的任務，例如基於梯度的軌跡優化更適合學習涉及軟體的細粒度操作任務，例如將麵團塑造成目標形狀。

與運動規劃結合的動作初始化在解決任務時更加可靠，例如透過無碰撞路徑接近目標物件。

強化學習和進化策略更適合接觸豐富、涉及與其他場景組件持續交互的任務，例如腿部運動，或者當所需的動作不能簡單地通過離散的末端執行器姿勢參數化時，比如轉動一個烤箱的旋鈕。

總之，GPT-4會根據產生的子任務，在線上選擇使用哪種演算法。

接下來，就可以為機器人建立模擬場景，讓它們學習技能了。

機器人學會開保險箱

舉個例子，RoboGen會讓機器人去學習調整檯燈方向這種非常精巧的任務。

有趣的是，在這個場景裡，地面上竟然還放著像是電腦顯示器這樣的易碎物。

可以說，非常考驗機器人的環境辨識能力了。

對此，RoboGen會產生非常詳盡的操作程式碼，包括場景配置、任務分解和監督：

此外，還會訓練一些需要執行許多步驟才能完成的任務，例如讓機器人把保險箱裡的東西拿出來。

這裡就涉及到開門，取物，放下，關門等操作，期間還需要盡量避免與家具產生碰撞。

RoboGen給出的程式碼如下：

或者，諸如讓波士頓動力的人形機器人原地轉個圈，這種在狹小空間中可能會遇到情景。

程式碼如下：

實驗結果

– 任務多樣性

如表1所示，與先前的所有基準相比，RoboGen實現了最低的Self-BLEU和嵌入相似度。也就是說，RoboGen生成任務的多樣性，比人工製作的技能學習基準和資料集還要高

– 場景有效性

如圖4所示，取消大小驗證會導致BLIP-2分數急劇下跌，這是因為Objaverse和PartNetMobility中的物體尺寸，與現實世界的實際尺寸之間存在著巨大差異。此外，沒有物件驗證的BLIP-2得分也較低，而且變異數較大。

相比之下，RoboGen中的驗證步驟，可以顯著提高物件選擇的有效性。

– 訓練指導有效性

如圖3所示，機器人在4個長程任務中，基於RoboGen產生的訓練指導（即任務分解與獎勵函數）所學習到的技能。

結果表明，機器人成功學習了完成相應任務的技能。也就是說，自動產生的訓練指導能有效衍生出有意義且有用的技能。

– 技能學習

表2的結果顯示，允許選擇學習演算法有利於提高完成任務的效能。如果只使用RL，大多數任務的技能學習都會失敗。

– 系統

如圖1所示，RoboGen可以產生各種任務，用於技能學習，包括剛性/關節物體操作、運動和軟體操作。

而圖3進一步表明，RoboGen能夠以合理的分解方式提供長程操作技能。

作者介紹

Yufei Wang是卡內基美隆大學機器人研究所三年級的博士生，導師是Zackory Erickson教授和David Held教授，研究興趣是機器人學習。

此前，他於2020年12月在CMU獲得了電腦科學碩士學位，導師是David Held教授，於2019年7月在北京大學元培學院獲得了數據科學學士學位，導師是Bin Dong教授。

Zhou Xian是卡內基美隆大學機器人研究所的博士生，導師是Katerina Fragkiadaki。研究興趣是機器人、電腦視覺和世界模型學習。

在進入CMU之前，他在新加坡南洋理工大學完成了學士學位，師從Pham Quang Cuong和I-Ming Chen。並曾在Meta AI、Akshara Rai，以及MIT-IBM AI Lab實習，指導教授是Chuang Gan。

目前，他的研究重點是為可擴展的機器人學習建立統一的神經策略和模擬基礎設施。

此外，共同一作還有清華姚班的陳楓。

團隊負責人淦創，現任IBM首席科學家和麻省大學助理教授，是姚期智院士的弟子。在博士期間曾獲得清華特獎，微軟學者，百度學者。他的研究同時得到了Amazon Research Award，Sony Faculty Award，Cisco Faculty Award，Microsoft Accelerate基金Models Research Program等資助。

參考資料：

https://robogen-ai.github.io

CMU清華MIT引爆全球首個Agent無限流，機器人「007」加班自學停不下來具身智能被革命

任務建議

場景生成

訓練監督生成

分析：比特幣30天期權Delta傾斜度飆升，表明市場處於極度恐慌中

比特幣價格接近130,000美元，分析師認為RTX、HBAR和XLM在BTC翻倍前可提供50倍收益

以太坊Microstrategy的結構性風險分析：基於最優淨資產價值

預計2050年XRP價格，XRPL每年銷毀98.5萬XRP

知名資管公司Point72與ExodusPoint披露持有Alt5 Sigma股份

當ETH找到新的支持級別時值得購買的山寨幣冷軟件和Shiba INU成為安全避風港

比特幣預測：哈佛經濟學家羅戈夫對驚人現象的深思

比特幣有兩名礦工攻擊51％攻擊的風險

CMU清華MIT引爆全球首個Agent無限流，機器人「007」加班自學停不下來具身智能被革命

任務建議

場景生成

訓練監督生成

Related Posts