大模型+人形機器人,是不是下一個風口?


最近一段時間裡,大模型與機器人的結合非常引人注目,從斯坦福大學李飛飛教授團隊提出“具身智能”,到最近宇樹,智元等品牌的“國產之光”。在數天前的2023世界機器人大會上,人形機器人在現場表演起了各種技能,將科幻照進現實,各家企業都把自己的機器人相關產品搬到了現場大顯神通。事後統計發現,參加大會的共有160家國內外機器人企業,600件機器人,其中又以人形機器人最出風頭。著名的波士頓動力創始人Marc Raibert、日本著名機器人學家石黑浩都不遠萬里的前來參會。

毫無疑問的,人形機器人正在成為資本市場的新熱點。一級市場上,BV百度風投、經緯、高瓴、高榕、真格等都在一線積極調研,前半年聊大模型的風投現在都在關心通用機器人。二級市場上,人形機器人概念股都熱炒了幾波。五月時馬斯克的一番話直接導致A股機器人概念“賽摩智能”一波衝高漲停,“豐立智能”也在六個交易日內漲漲超150%,甚至引起深交所的關注,要求說明股價漲幅較大的原因及合理性。

特斯拉的推動

在今年特斯拉股東大會上,馬斯克說到:“人形機器人Optimus對運動和力量的控制以及環境感知方面有顯著加強,技術正在快速迭代。預計未來機器人的需求可能會達到100億,甚至更多。如果以人類和機器人的比例為2:1推算,那麼對人形機器人的需求可能會比電動汽車的還大不少。”就憑藉此寥寥數語,馬斯克的信心、熱情和投入很快點燃了人形機器人賽道的火焰,並有愈演愈烈的趨勢至今。而從實際應用的角度來看,推動整個產業鏈走向成熟和完善的可能也是特斯拉。

特斯拉的人形機器人Optimus首次亮相是在去年官方的2022 AI Day活動上,並在現場完成了自主行走、轉身、停止、揮手問候等動作。 Optimus的技術大部分與特斯拉汽車的一致,如機器視覺,以及處理視覺數據、做出行動決策、支持通信交易所的“大腦”,還有最重要的與特斯拉汽車一致的芯片,還搭載與特斯拉車輛同源的FSD電腦以及Autopilot相關神經網絡技術,預計最終售價不超2萬美元,約合14.4萬元人民幣。

從實際技術的角度來說,特斯拉這種企業做機器人有先天性優勢,因為機器人與AI的很多基本原理都是相同的,而且也可以視為電動車的自然延伸,電動車可以視為第一代的四輪機器人。前兩年馬斯克提出要做機器人時引來不少說他“不務正業”的嘲諷,然而今年年初,理想汽車確定的願景是成為最優秀的AI和機器人公司,而非全球最大的電動車企業。由此可見夢想也是會傳播的。

機器人的新方向

機器人現在已經屢見不鮮,決定人形機器人能走多遠的是任務泛化能力,這也是很多企業正在發力的方向。之前已經說過的宇樹和智元等“國產之光”在此不再贅述,還有其他初創企業同樣值得關注,比如月泉仿生,其機器人產品的靈巧性已經能和人手相媲美。公司自主研發的類人仿生智能靈巧手在外力干擾下可以通過主動移動、屈曲、超越等動作調整,以保持手持物體不掉落。官方對其表述為:“除了基礎的抓握、按壓等動作外,還可以完成27種不同的手部複雜精細操作,比如使用筷子夾取細小物體、塗抹護膚品、攪拌咖啡、刷手機、解釦子等。”靈巧手採用拉壓體驅動技術,擁有極高自由度。同時內置了柔性傳感器,具有觸覺神經反饋。

此外還有浙江大學控制學院機器人團隊的“悟空-4”人形機器人,據介紹,“悟空-4”可適應室外路面、草叢、泥濘路面等多種地形,最快前進速度可以達到6公里/小時,還能跳高0.5米,還可以通過上下25度的斜坡和10厘米高台階。在路面打滑和外部推力干擾等未知擾動下,可快速恢復平衡並保持穩定行走。 “悟空-4”通過融合腿足運動技術與環境感知技術,實現了機器人的三維環境地圖構建和自主動態導航。

這些新品機器人的背後,是企業與高校自主研發的一系列軟硬件技術:基於本體感知驅動器的人形機器人本體;使用自研高扭矩密度模塊化關節以及一體化結構設計;以高強度合金、碳纖維和工程塑料等先進材料,保留美觀外形,提高了結構的強度和穩定性;再加上大語言模型,配以先進的力控算法,具備高動態性能的同時能更好地理解人類。

從投資人追捧、頭部科技公司入局,到創業公司和高校的創新研究,眼下人形機器人正在多個方向齊頭並進,迎來新的發展階段。比如集成大模型,給它裝上大腦,這也是推動人形機器人熱潮的另一關鍵技術變量。

之前曾經說過,“具身智能”就是“有實際的身體並支持物理交互的智能體”,相當於給AI加裝身體,屬於通用機器人新的發展路徑。資本去給行業再添一把柴火,經過五年到十年的大規模投入,讓它燒的更旺,最終實現通用機器人的商業化。過去很長一段時間裡,機器人的發展都是僅限於完成某一類特定工作,正如曾經同樣局限性很大的AI。大模型是逐漸發展到AGI的,與機器人的結合自然也可以拓展機器人的應用範圍。

相比國內,國外的進展更快一步,已經把大模型的能力從語言升級到執行層。七月時李飛飛團隊的機器人已經可以拉抽屜、擰瓶蓋、稱蘋果了。月底時谷歌DeepMind推出的Robotics Transformer 2(RT-2),繼續在同一方向深入研究。 RT-2是一個全新的視覺+語言+動作(VLA)模型,可以從網絡和機器人數據中學習,並將這些知識轉化為機器人控制的通用指令。 RT-2表現出了更好的泛化能力,理解範圍已經超出它所接觸到的機器人數據的語義和視覺範疇,且能解釋新指令並通過執行基本推理來響應命令。

注定坎坷之路

常言道“理想很豐滿,現實很骨感”,機器人與AI在加速發展的同時還有很多現實的技術難題和商業化挑戰。有說法認為通用機器人領域也需要GPT-4這樣的技術或產品,才能把多模式能力結合在一起,真正統一具身智能的發展。但這並非易事,目前論文和一些demo展示的機器人與大模型結合還是偏重解決交互問題,但並不是解決交互問題後,機器人就能變成了通用機器人。從機器人的發展歷程來看,大模型的確有貢獻但對底層控制和執行的影響有限。目前學術界採用AI驅動的方法,普遍希望把強化學習的方式做底層的控制執行,但這又和大模型沒有直接關係,且強化學習的控制方法也不成熟,大部分還停留在學術研究階段。

另一個難題在於軟硬件能力的協同進化上。雖然很多人都推崇大模型與機器人的結合將帶來顛覆性的機會,波士頓動力創始人Marc Raibert卻表示,未來的機器人技術發展過程中,硬件工程和軟件同等重要。 “有些人認為軟件可以克服硬件上所有的問題和限制,我並不贊同這個觀點。只有最好的硬件設計師和軟件性設計師傾力合作,才能夠設計出世界上最好的機器人。”

此外在安全性上也需要改進。大模型的“AI幻覺”可能不會造成什麼實質性影響,但一旦進入生活,機器人就需要保證準確度和安全性,這些都是技術需要改進的方向。技術、場景、成本、安全,機會和挑戰正在同時到來,人形機器人正邁出了通往未來的關鍵一步。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts