當大模型與機器人相結合,能否從相互促進走向如虎添翼?


當前國際競爭中以製造業為主,國際市場上售賣的商品大部分是Made in China。根據2015年國務院公佈的《中國製造2025》計劃書,基本方針以創新驅動、質量為先、綠色發展、結構優化、人才為本的主軸,提高國家製造業工業基礎能力、加強品牌質量、推行綠色製造、調整產業結構、發展服務型製造和生產性服務業、提高國際化發展水平為任務和重點。簡而言之就是要從“中國製造”走向“中國智造”。

從“製造”走向“智造”,機器人,AI,AGI,大模型等話題就繞不開。此前連續多年,我國都是全球數一數二的工業機器人市場。從運行原理的角度來說,機器人與AI大同小異,而在大模型相關技術帶動下,AI發展到AGI,進而與機器人的結合,或帶動機器人的發展也再次引發了業內的新一波討論。

中國對外出口商品分類色塊圖

目前外界常說的工業4.0,或第四次工業革命,不僅是要發明新技術,更著重於現有技術、銷售與產品體驗的相結合,通過工業級AI技術創建具有適應性、資源效率和符合人體工學的智能工廠,並在商業及價值流程中集成客戶以及商業夥伴,提供完善的售後服務,其中AI集成系統與物聯網,以及大模型等都可以視為技術基礎。

最近,阿爾法狗(AlphaGo)的製造商,谷歌DeepMind發表論文Language to Rewards for Robotic Skill Synthesis(《面向機器人技能合成的語言到獎勵轉換》),其中提到引入一種新範式,通過利用LLM來定義可以優化的獎勵參數,以完成各種機器人任務。由於現代大部分機器人行為都依賴硬件條件,並且在LLM訓練所需語料庫中的代表性不足,因此目前將LLM應用到機器人技術的努力,大多是將LLM視為語義規劃器,或依賴人工設計的控制原語來與機器人進行交互。論文鏈接:https://arxiv.org/abs/2306.08647

前面說過機器人與AI的學習,訓練與運行原理大同小異,而且二者間有相互促進共同發展的趨勢,與AGI,大模型相結合後的應用領域也非常廣泛,可能深刻改變到我們的生活,目前也是很多企業正在發力研究的重點領域。

從廣義的角度說,AI與機器人的學習可以統稱為“機器學習”,需要人工預先設置函數與獎勵機制,隨後再進行針對性優化。而在論文《面向機器人技能合成的語言到獎勵轉換》中,谷歌DeepMind團隊利用不同機器人,以及處理不同任務的異質性機器人經驗,使其可以快速掌握新技能和運動實體,以改善機器人學習情況。

受近期LLM與多模態、跨模態等AGI大發展的啟發,DeepMind團隊開發了一種可用於機器人操作的基礎AI模型“RoboCat”。該模型是首個能夠解決和適應多種任務的模型,並且可搭配不同的真實機器人來完成。根據DeepMind團隊官方的說法,RoboCat的靈感來自於團隊的另一個AI模型Gato,這是個可用於分析和處理文本、圖像和事件的模型。 RoboCat的訓練數據包括模擬和真實機器人的圖像與動作數據,這些數據來自於虛擬環境中的其他機器人控制模型、人類控制的機器人以及RoboCat本身的早期版本。 DeepMind表示:“我們證明了一個基本事實,即單一的大型模型可以在多個不同的機器人實體上解決不同的任務,並且可以快速地適應新任務與新實體。”

為了訓練RoboCat,DeepMind首先使用人類控制的機械臂,在模擬或真實環境中完成成千上萬次演示,並收集了每次演示時機器人對不同環境或任務的數據,例如讓機械臂以不同的方式搭積木。接下來要對RoboCat進行微調,在每個任務上都創建一個專門的“衍生”模型,再讓它練習數万次。通過利用衍生模型生成的數據和理論演示數據,DeepMind對RoboCat的訓練數據集不斷擴大,並訓練出新版本的RoboCat。在RoboCat的最終版本上,在總共二百多個模擬和真實世界任務上進行訓練,並在這些任務的一百多個變體上進行了測試。 DeepMind表示,經過幾個小時的觀察,收集了成千上萬次人類控制的演示後,RoboCat學會了操作不同類型的機械臂。雖然它已經在四種有兩爪臂的機器人上進行了訓練,但RoboCat同樣能適應一種更複雜的,有三指夾具和兩倍可控輸入的機械臂,只是目前這種機械表的泛用性不如兩爪臂更高。

至此也不難發現,DeepMind對RoboCat的訓練過程,與OpenAI對GPT系列的訓練過程頗為相似,都是先訓練一個基礎模型,再在此基礎上微調出其他各種變形,以適應不同的環境和任務,因此這也可以說明AI與機器人在很多領域的原理都是相似甚至相同的。但是正如有批評者說ChatGPT的本質是“電子鸚鵡”一樣,RoboCat也不是完美無缺的。

在DeepMind的測試中團隊就發現,RoboCat在不同任務上的成功率差異明顯,從最低的七分之一到最高的99%都可能出現。而且這還是在訓練了上千次的情況下,如果減少訓練次數,成功率肯定更低。不過,DeepMind也聲稱RoboCat在某些特定情況下只需訓練一百次即可學會處理新任務,這可能是在經過一定量的學習後激活了它的“湧現”能力,或者是自動微調到之前處理過的任務模型上,並且可以生成更多數據來自主提高。 DeepMind的未來目標是減少RoboCat完成新任務所需的訓練次數,甚至是壓縮到十次以內即可學會處理新任務。若果真如此,則大模型應用在機器人上的成本將很快降低,應用到各行各業也可能不再遙不可及。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts