來源:《科創板日報》
編輯宋子喬
當地時間5月9日,Meta宣布開源了一種可以將可以橫跨6種不同模態的全新AI模型ImageBind,包括視覺(圖像和視頻形式)、溫度(紅外圖像)、文本、音頻、深度信息、運動讀數(由慣性測量單元或IMU產生)。目前,相關源代碼已託管至GitHub。
何為橫跨6種模態?
即以視覺為核心,ImageBind可做到6個模態之間任意的理解和轉換。 Meta展示了一些案例,如聽到狗叫畫出一隻狗,同時給出對應的深度圖和文字描述;如輸入鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。
而此前的多模態AI模型一般只支持一個或兩個模態,且不同模態之間難以進行互動和檢索。 ImageBind無疑具有突破性意義,Meta稱,ImageBind是第一個能夠同時處理6種感官數據的AI模型,也是第一個在沒有明確監督的情況下學習一個單一嵌入空間的AI模型。
ImageBind能做到這些,核心方法是把所有模態的數據放入統一的聯合嵌入空間,無需使用每種不同模態組合對數據進行訓練
先利用最近的大型視覺語言模型它將最近的大規模視覺語言模型的零樣本能力擴展到新的模態,它們與圖像的自然配對,如視頻– 音頻和圖像– 深度數據,來學習一個聯合嵌入空間。
而以圖像/視頻為中心訓練好AI後,對於原始數據中沒有直接聯繫的模態,比如語音和熱量,ImageBind表現出湧現能力,把他們自發聯繫起來。
有行業觀察者已經迫不及待地將ImageBind於元宇宙聯繫在一起。
正如Meta的研究團隊所說,ImageBind為設計和體驗身臨其境的虛擬世界打開了大門。該團隊還表示,未來還將加入觸覺、語音、嗅覺和大腦功能磁共振信號,進一步探索多模態大模型的可能性,“人類可使用多種感官學習、了解世界,借助ImageBin,機器離人類又近了一步”。
值得注意的是,Meta還表示,ImageBind可以利用DINOv2強大的視覺功能進一步提高其能力。 DINOv2是Meta開源的計算機視覺領域的預訓練大模型,同樣與Meta的元宇宙願景密不可分,Meta CEO扎克伯格此前強調,DINOv2可以極大地加持元宇宙的建設,讓用戶在元宇宙中的沉浸體驗更出色。
儘管ImageBind目前只是研究項目,沒有直接的消費者用戶或實際應用。但可以想像的是,隨著ImageBind模型逐步完善,AI應用場景將進一步拓展,元宇宙建設也將更進一步。
比如當ImageBind融入虛擬現實設備,使用者能獲得更沉浸式的體驗,玩家進入遊戲後不僅能感受遊戲場景的溫度,還能感知物理層面上運動。
國盛證券分析師劉高暢此前大膽預測,1-5年內,隨著多模態的發展帶來AI泛化能力提升,通用視覺、通用機械臂、通用物流搬運機器人、行業服務機器人、真正的智能家居會進入生活。未來5-10年內,結合複雜多模態方案的大模型有望具備完備的與世界交互的能力,在通用機器人、虛擬現實等領域得到應用。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載