全新視覺提示方法SoM(Set-of-Mark),讓OpenAI 多模態大模型GPT-4V 在視覺內容理解上有了質的提升。
原文來源:機器之心
圖片來源:由無界AI生成
最近一段時間,我們見證了大型語言模型(LLM)的顯著進步。特別是,生成式預訓練Transformer 或GPT 的發布引領了業界和學術界的多項突破。自GPT-4 發布以來,大型多模態模型(LMM) 引起了研究界越來越多的興趣,許多工作致力於建構多模態GPT-4。
近日,GPT-4V (ision) 由於出色的多模態感知和推理能力得到了大家格外的關注。然而,儘管GPT-4V 具有前所未有的視覺語言理解能力,但其細粒度visual grounding(輸入是圖片和對應的物體描述,輸出是描述物體的box)能力相對較弱,或者尚未發揮出來。
舉例來說,當使用者詢問下圖中「放置在右邊筆記型電腦的左邊是什麼物體?」GPT-4V 給了馬克杯這個錯誤的答案。當使用者接著詢問,「想找一個靠窗的座位,我可以坐在哪裡?」GPT-4V 同樣回答不正確。
在意識到上述問題後,來自微軟、香港科技大學等機構的研究者提出了一種新的視覺prompt 方法Set-of-Mark(SoM),來解決GPT-4V 在細粒度視覺任務上的問題。
論文網址:https://arxiv.org/pdf/2310.11441.pdf 論文首頁:https://som-gpt4v.github.io/
如圖1(右)所示,SoM 採用互動式分割模型(例如SAM)將影像劃分為不同粒度等級的區域,並在這些區域上添加一組標記(mark),例如字母數字、遮罩(mask )、框(box)。使用新增標記的影像作為輸入,以解決上述問題。
我們先來看下效果,左為GPT-4V,右為GPT-4V+SoM,很明顯後者分類較細緻、準確。
下圖範例依然如此,GPT-4V+SoM 效果更明顯。
此外,對於這項研究,有人問道:「SoM 是手動(人工輸入)還是自動的?」
論文一作Jianwei Yang 表示,SoM 是自動或半自動的。他們編譯了許多自己建立自己的分割工具,例如SEEM、Semantic-SAM 和SAM,用來幫助使用者自動為影像分割區域。同時使用者也可以自己選擇區域。
用於視覺的SoM prompt
使用SoM prompt GPT-4V 的獨特優點是它可以產生文字以外的輸出。由於每個標記都與掩碼表徵的圖像區域特定關聯,因此可以追溯文字輸出中任何提到的標記的遮罩。
產生成對文字和掩碼的能力使SoM 能夠prompt GPT-4V 來產生視覺關聯的文本,更重要的是支援各種細粒度視覺任務,這對普通的GPT-4V 模型來說是一個挑戰。
透過簡單的prompt 工程,SoM 可以讓GPT-4V 廣泛地用於多種視覺任務,例如:
開放詞彙影像分割:研究要求GPT-4V 詳盡地給出所有標記區域的類別以及從預定礦池中選擇的類別。參考分割:給定一個參考表達式,GPT-4V 的任務是從影像分區工具箱產生的候選區域中選擇最匹配的區域。片語關聯(Phrase Grounding):與參考分割略有不同,片語關聯使用由多個名詞片語組成的完整句子。研究要求GPT-4V 為所有標記的短語分配相應的區域。視訊物件分割:以兩個影像作為輸入。第一個圖像是查詢圖像,其中包含第二個圖像中需要識別的一些物件。鑑於GPT-4V 支援多個影像作為輸入,因此SoM 也可以應用於影片中跨畫面的關聯視覺物件。
實驗及結果
研究者使用「分而治之」(divide-and-conquer)的策略來運行實驗和評估。對於每個實例,他們使用新的聊天窗口,這樣一來,評估期間就不會出現上下文洩漏了。
具體來講,研究者從每個資料中心化選擇了小規模的驗證資料子集。對於資料中心化的每個影像,他們在使用影像分割工具箱提取的區域上覆蓋了一組標記。同時基於具體的任務,研究者利用不同的分割工具來提出區域。
下表1 列出了每個任務的設定細節。
研究者將其方法與以下模型進行比較:
預測座標的GPT-4V 基準模型SOTA 專用模型開源LMM
定量結果
詳細的實驗結果如下表2 所示。
首先是影像分割任務。研究者將GPT-4V + SoM 與COCO Panoptic 分割資料集上的強大分割模型MaskDINO、ADE20K Panoptic 分割資料集上的模型OpenSeeD 進行了比較。
結果顯示,GPT-4V + SoM 的零樣本效能接近微調後的MaskDINO,並大幅優於OpenSeeD。 GPT-4V 在COCO 和ADE20K 上的相似表現表現出其對廣泛視覺和語義域任務的強大泛化能力。
然後是參考(referrring)任務,研究者評估了RefCOCOg 資料集上的模型RES 和REC。他們使用MaskDINO 來提出掩碼,並在圖像上覆蓋上掩碼和數字。同時使用mIoU 作為評估指標,並與SOTA 專用模型PolyFormer 和SEEM 進行比較。
結果顯示,GPT-4V+SoM 擊敗了Grounding DINO、Polyformer 等專用模型以及Shikra、LLaVA-1.5、MiniGPT-v2 和Ferret 等最近的開源LMM。
接著是Flickr30K 上的短語關聯任務,研究者使用Grounding DINO 為每個影像產生框建議。 GPT-4V+SoM 實現了比GLIPv2 和Grounding DINO 更強的零樣本效能。
最後研究者在DAVIS2017 資料集上評估了視訊分割任務。 GPT-4V+SoM 實現了優於其他專用視覺模型的最佳追蹤性能(78.8 J&F)。
消融研究
研究者探討了標記類型如何影響Flickr30k 資料集上短語關聯任務的最終效能,並比較了兩種類型的標記。第一種是數字和掩碼,第二種是數字、掩碼和框。
結果如下表3 所示,增加額外的方塊可以顯著提升效能。
此外研究者探討了當產生帶有真值註釋的標記時,GPT-4V 如何表現。他們選擇在RefCOCOg 驗證中心化用真值遮罩替換預測到的分割遮罩。這意味著GPT-4V 只需要從註釋短語區域選擇一個。如預期一樣,參考分割的表現可以進一步提升,尤其是當分割模型有一些缺失的區域。
結果如下表4 所示,在SoM 中使用真值遮罩可以將RefCOCOg 上的效能提升14.5%(mIoU)。
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載