字節大模型新進展：首次引入視覺定位，實現細粒度多模態聯合理解，已開源&demo可玩

原文來源：量子位

字節大模型，BuboGPT來了。

支持文本、圖像、音頻三種模態，做到細粒度的多模態聯合理解。

答哪指哪，什麼講了什麼沒講，一目了然：

除了有“慧眼”，還有“聰耳”。人類都注意不到的細節BuboGPT能聽到：

Audio-1-chime-bird-breeze,量子位,20秒

前方高能

三模態聯合理解，文字描述+圖像定位+聲音定位，一鍵搞定，準確判斷聲音來源：

Audio-7-dork-bark,量子位,6秒

別著急，還沒完

即使音頻和圖像之間沒有直接關係，也可以合理描述兩者之間的可能關係，看圖辨音講故事也可以：

Audio-11-six-oclock,量子位,1分鐘

這麼一看，BuboGPT干點活，夠“細”的。

研究人員表示：

MiniGPT-4，LLaVA和X-LLM等最近爆火的多模態大模型未對輸入的特定部分進行基礎性連接，只構建了粗粒度的映射。
而BuboGPT利用文本與其它模態之間豐富的信息且明確的對應關係，可以提供對視覺對象及給定模態的細粒度理解。

因此，當BuboGPT對圖像進行描述時，能夠指出圖中對象的具體位置。

BuboGPT：首次將視覺連接引入LLM

除了上面作者分享在YouTube的示例，研究團隊在論文中也展示了BuboGPT玩出的各種花樣。

活久見青蛙彈琴這樣的圖BuboGPT也能準確描述嗎？

一起康康回答得怎麼樣：

不僅能夠準確描述青蛙的姿勢，還知道手摸的是班卓琴？

問它圖片都有哪些有趣的地方，它也能把圖片背景裡的東西都概括上。

BuboGPT“眼力+聽力+表達力測試”，研究人員是這樣玩的，大傢伙兒先來聽這段音頻。

Audio-9-hair-dryer,量子位,5秒

再來看看BuboGPT的描述怎麼樣：

圖片上的人的性別、聲音來源、圖片中發生的事情，BuboGPT都能準確理解。

效果這麼好，是因為字節這次用了將視覺定位引入LLM的方法。

具體方法我們接著往下看。

BuboGPT的架構是通過學習一個共享的語義空間，並進一步探索不同視覺對象和不同模態之間的細粒度關係，從而實現多模態理解。

為探索不同視覺對象和多種模態之間的細粒度關係，研究人員首先基於SAM構建了一個現成的視覺定位pipeline。

這個pipeline由標記模塊（Tagging Module）、定位模塊（Grounding Module）和實體匹配模塊(Entity-matching Module)三個模塊組成。

流程大概是這樣嬸兒的：

首先，標記模塊是一個預訓練模型，可以生成與輸入圖像相關的多個文本標籤。

基於SAM的定位模塊進一步定位圖像上與每個文本標籤相關的語義掩模或邊界框。

然後，實體匹配模塊利用LLM的推理能力從標籤和圖像描述中檢索匹配的實體。

研究人員就是通過這種方式，使用語言作為橋樑將視覺對象與其它模態連接起來。

為了讓三種模態任意組合輸入都能有不錯的效果，研究人員採用了類似於Mini-GTP4的兩階段走訓練方案：

單模態預訓練和多模態指令調整。

具體而言，BuboGPT使用了ImageBind作為音頻編碼器，BLIP-2作為視覺編碼器，以及Vicuna作為預訓練LLM。

在單模態預訓練階段，在大量的模態-文本配對數據上訓練相應的模態Q-Former和線性投影層。

對於視覺感知，研究人員僅對圖像標題生成部分進行投影層的訓練，並且保持來自BLIP2的Q-Former固定。

對於音頻理解，他們同時訓練了Q-Former和音頻標題生成部分。

在這兩種設置下都不使用任何提示（prompt），模型僅接收相應的圖像或音頻作為輸入，並預測相應的標題（caption）。

△不同輸入的指令遵循示例

在多模態指令調整階段，構建了一個高質量的多模態指令數據集對線性投影層進行微調，包括：

圖像-文本：使用MiniGPT-4和LLaVa中的兩個數據集進行視覺指令調優。音頻-文本：基於Clotho數據集構建了一系列表達性和描述性數據。音頻-圖像-文本：基於VGGSS數據集構建了三模態指導調優數據對，並進一步引入負樣本來增強模型。

值得注意的是，通過引入負樣本“圖像-音頻對”進行語義匹配，BuboGPT可以更好地對齊，多模態聯合理解能力更強。

目前BuboGPT代碼、數據集已開源，demo也已發布啦，我們趕緊上手體驗了一把。

demo淺玩體驗

BuboGPT demo頁面功能區一目了然，操作起來也非常簡單，右側可以上傳圖片或者音頻，左側是BuboGPT的回答窗口以及用戶提問窗口：

上傳好照片後，直接點擊下方第一個按鈕來上傳拆分圖片：

就拿一張長城照片來說，BuboGPT拆成了這個樣子，識別出了山、旅遊勝地以及城牆：

當我們讓它描述一下這幅圖時，它的回答也比較具體，基本準確：

可以看到拆分框上的內容也有了變化，與回答的文本內容相對應。

再來一張圖片，並帶有一段音頻，BuboGPT也正確匹配了聲音來源：

Audio-8-bicycle_bell,量子位,22秒

當然，它也會出現識別不成功，表述錯誤的情況，比如說下面這張圖中並沒有人，音頻也只是鍾聲，但它的描述和圖片似乎並不搭邊。

感興趣的家人趕緊親自上手試試～～

傳送門：
[1]https://bubo-gpt.github.io/
[2]https://huggingface.co/spaces/magicr/BuboGPT（demo）

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

字節大模型新進展：首次引入視覺定位，實現細粒度多模態聯合理解，已開源&demo可玩

8月12日午間重要動態一覽

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

字節大模型新進展：首次引入視覺定位，實現細粒度多模態聯合理解，已開源&demo可玩

Related Posts