達摩院貓頭鷹mPLUG-Owl 亮相:模塊化多模態大模型,追趕GPT-4 多模態能力


來源:機器之心

純文本大模型方興未艾,多模態領域也開始湧現出多模態大模型工作,地表最強的GPT-4 具備讀圖的多模態能力,但是遲遲未向公眾開放體驗,於是乎研究社區開始在這個方向上發力研究並開源。 MiniGPT-4 和LLaVA 問世不久,阿里達摩院便推出mPLUG-Owl ,一個基於模塊化實現的多模態大模型。

今天要介紹的是mPLUG-Owl,該工作不僅通過大量cases 展示出優秀的多模態能力,還第一次針對視覺相關的指令理解提出一個全⾯的測試集OwlEval,通過人工評測對比了已有模型,包括LLaVA 、MiniGPT-4 、BLIP-2 以及系統類MM-REACT 等工作,實驗結果表明mPLUG-Owl 展示出更優的多模態能力,尤其在多模態指令理解能力、多輪對話能力、知識推理能力等方⾯表現突出

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態能力展示

我們把mPLUG-Owl 與現有工作進行對比來感受一下mPLUG-Owl 的多模態效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了cherry pick 問題。

下圖6 展示了mPLUG-Owl 很強的多輪對話能力。

從圖7 中可以發現, mPLUG-Owl 具有很強的推理能力。

如圖9 展示了一些笑話解釋例⼦。

在該工作中,除了評測對比外,該研究團隊還觀察到mPLUG-Owl 初顯一些意想不到的能力,比如多圖關聯、多語⾔、文字識別和文檔理解等能力。

如圖10 所示,雖然在訓練階段並沒有進行多圖關聯數據的訓練,mPLUG-Owl 展現出了一定的多圖關聯能力。

如圖11 所示,儘管mPLUG-Owl 在訓練階段僅使用了英文數據,但其展現出了有趣的多語⾔能力。這可能是因為mPLUG-Owl 中的語⾔模型使用了LLaMA,從而出現了這一現象。

儘管mPLUG-Owl 沒有在帶有標註的文檔數據上進行訓練,但其仍然展現出了一定的文字識別和文檔理解能力,測試結果如圖12 所示。

方法介紹

該工作提出的mPLUG-Owl,其整體架構如圖2 所示。

模型結構:它由視覺基礎模塊(開源的ViT-L)、視覺抽像模塊以及預訓練語⾔模型( LLaMA-7B) 組成。視覺抽像模塊將較⻓的、細粒度的圖像特徵概括為少量可學習的代幣,從而實現對視覺信息的⾼效建模。 ⽣成的視覺代幣與文本查詢一起輸⼊到語⾔模型中,以⽣成相應的回复。

模型訓練:採用兩階段的訓練方式

第一階段:主要目的也是先學習視覺和語⾔模態間的對⻬。不同於先前的工作, mPLUG-Owl 提出凍住視覺基礎模塊會限制模型關聯視覺知識和文本知識的能力。因此mPLUG-Owl 在第一階段只凍住LLM 的參數,採用LAION-400M, COYO-700M, CC 以及MSCOCO 訓練視覺基礎模塊和視覺摘要模塊。

第⼆階段:延續mPLUG 和mPLUG-2 中不同模態混合訓練對彼此有收益的發現,Owl 在第⼆階段的指令微調訓練中也同時採用了純文本的指令數據(52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模態的指令數據(150k from LLaVA)。作者通過詳細的消融實驗驗證了引⼊純文本指令微調在指令理解等方⾯帶來的收益。第⼆階段中視覺基礎模塊、視覺摘要模塊和原始LLM 的參數都被凍住,參考LoRA,只在LLM 引⼊少量參數的adapter 結構用於指令微調。

實驗結果

SOTA 對比

為了比較不同模型的多模態能力,該工作構建一個多模態指令評測集OwlEval。由於⽬前並沒有合適的自動化指標,參考Self-Intruct 對模型的回復進行人工評測,打分規則為:A=”正確且令人滿意”;B=”有一些不完美,但可以接受”;C=”理解了指令但是回復存在明顯錯誤”;D=”完全不相關或不正確的回复”。

對比結果如下圖3 所示,實驗證明Owl 在視覺相關的指令回復任務上優於已有的OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

多維度能力對比

多模態指令回復任務中牽扯到多種能力,例如指令理解、視覺理解、圖⽚上文字理解以及推理等。為了細粒度地探究模型在不同能力上的⽔平,本文進一步定義了多模態場景中的6 種主要的能力,並對OwlEval 每個測試指令人工標註了相關的能力要求以及模型的回復中體現了哪些能力。

結果如下表格6 所示,在該部分實驗,作者既進行了Owl 的消融實驗,驗證了訓練策略和多模態指令微調數據的有效性,也和上一個實驗中表現最佳的baseline— MiniGPT4 進行了對比,結果顯示Owl 在各個能力方⾯都優於MiniGPT4。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts