正面硬剛GPT-4V浙大校友開源多模態大模型LLaVA-1.5，130億參數8個A100一天訓完

原文來源：新智元

圖片來源：由無界AI生成

9月底，OpenAI宣布ChatGPT多模態能力解禁。多模態GPT-4V的神奇能力讓眾人驚呼：這就是GPT-4.5吧？

這才沒多久，GPT-4V的開源競爭對手－LLaVA-1.5，就已經來了

4月，來自威斯康辛大學麥迪遜分校、微軟研究院以及哥倫比亞大學的研究人員開源了一款全新的端對端多模態大模式LLaVA。

而現在，升級後的LLaVA-1.5，不僅在11個基準測試上實現了SOTA，甚至還可以直接對打GPT-4V。

研究人員透過使用具有MLP映射的CLIP-ViT-L-336px，並添加具有簡單響應格式提示的、面向學術任務的VQA數據，大幅提升了LLaVA-1.5的效能。

結果顯示，架構更簡單的LLaVA-1.5只需要120萬公開數據，即可超越用了14.5億訓練數據的Qwen-VL和1.3億數據的HuggingFace IDEFICS（一個類似Flamingo的80B模型）。

其中，13B模型的訓練，只需要8個A100就可以在1天內完成。

LLaVA-1.5硬槓GPT-4V

號稱能和GPT-4V對打，那麼LLaVA-1.5的實力究竟如何？

我們來讓GPT-4V、LLaVA和LLaVA-1.5來pk一下。

專案網址：https://llava-vl.github.io/

問：「如果有事實性錯誤，請指出來。如果沒有，請告訴我，沙漠中正在發生什麼？」

GPT-4V的回答有點蠢：「對不起，我回答不了這個問題，因為並沒有上下文顯示你提到的那片沙漠。」

而LLaVA則將錯就錯地回答：「在圖中，城市和海灘組成了城市天際線，人們正在享受日落。這個海灘場景居然在沙漠中，還挺不尋常的。」

唯一的滿分選手LLaVA-1.5給出了完美答案：「圖中根本沒有沙漠，有的是棕櫚樹海灘、城市天際線和一大片水域。」

另外，LLaVA-1.5還可以從圖中提取訊息，按照要求的格式進行回答，例如以JSON格式輸出。

可以看到，LLaVA-1.5基本上完成了任務，和GPT-4V相比還有一些瑕疵。

同樣地，給LLaVA-1.5一張滿是水果蔬菜的圖片，它也能像GPT-4V一樣，把圖片轉換到JSON。

視覺化分析和智慧數據轉換，就是這麼簡單

下面這題，可就沒那麼容易了──這幅圖是什麼意思？

原來，這是一張根據諾蘭《全面啟動》繪製的簡化草圖，為了提高難度，角色名字改成了假名。

LLaVA-1.5可沒有被難倒，它自信滿滿地作答：「這是一張關於電影《全面啟動》的圖。它顯示了夢境世界中的不同層次，每一層次用一條線表示。圖寫在一張紙上，紙放在一個檯面上。」

吃貨們有福了看到一張讓人垂涎欲滴的照片，特別想吃到嘴裡，怎麼辦？

直接發給LLaVA-1.5，它火速就給你生成一份食譜。

而且，LLaVA-1.5不用「越獄」就可以辨識出驗證碼。

它還能檢測出，圖中是哪一種硬幣。

特別令人印象深刻的是，LLaVA-1.5還能告訴你圖中的汪星人是什麼品種。

有網友用Bing生成了一張在陽光明媚的夏季海灘上穿著冬季外套的男人的圖片，並請LLaVA 1.5指出圖中有哪些問題。

它的慧眼十分犀利——

這是一張經過處理或PS的照片，照片中一名男子穿著夾克，站在海灘上。男子敞開外套，陽光照在他身上。
這張圖片的問題在於，它並非真實的海灘場景。該男子其實並沒有站在沙灘上，陽光也沒有照在他身上。
這張圖是p出來的，營造出了一種海灘場景的假象，但它並沒有真實地再現這個場景。

不過，在依照設計編寫前端程式碼方面，LLaVA-1.5的能力就要弱一些了。

從結果來看，它的產出確實還比較簡陋…

8個A100，一天訓完

LLaVA模型的架構，是將一個預先訓練的視覺編碼器（CLIP ViT-L/14）與一個大規模語言模型（Vicuna）連接在一起。

這兩個模型透過一個簡單的映射矩陣連接，這個矩陣負責將視覺和語言特徵對齊或轉換，以便在一個統一的空間內對它們進行操作。

在多模態指令跟隨資料集上，LLaVA表現出色，跟GPT-4相比，分數達到了85.1%。在Science QA上，LLaVA的準確率刷新了紀錄，達到92.53%。

這次，研究人員基於LLaVA框架，建立了更強大、更有實用性的基線。

論文網址：https://browse.arxiv.org/pdf/2310.03744.pdf

MLP跨模態連接器和合併學術任務相關數據（如VQA），為LLaVA帶來了更強的多模態理解能力。

與InstructBLIP或Qwen-VL在數億甚至數十幾億的圖像文字配對資料上訓練的、專門設計的視覺重新採樣器相比，LLaVA用的是最簡單的LMM架構設計，只需要在600K個圖像-文字對上，訓練一個簡單的完全連接映射層即可。

最後的模型在8個A100上，1天內就能訓完，並且在各種基準測試中都取得了SOTA。

此外，Qwen-VL在訓練時包含了內部數據，但LLaVA需要的，只是公開數據。

毫無疑問，這些經過改進、易於重現的基線能，將為開源LMM的未來提供很有價值的參考。

效能大幅提升，刷新11項SOTA

作為一個開源視覺指令微調模型，LLaVA在視覺推理能力方面的表現十分出色——在基於現實生活的視覺指令跟隨任務的基準測試中，LLaVA甚至超過了最新的模型。

不過，在通常需要簡短答案（如單字）的學術基準測試中，LLaVA的表現卻不盡人意。原因在於，LLaVA並沒有在大規模資料上進行預訓練。

模型縮放

首先，研究人員提高了輸入影像的分辨率，使LLM能夠清晰地「看到」影像的細節，並添加了GQA資料集，作為額外的視覺知識來源。並且，也加入ShareGPT數據，將LLM放大到13B。

MM-Vet的結果顯示，當LLM擴展到13B時，改進最為顯著，這也顯示了，基礎LLM在視覺對話方面的能力非常重要。

經過所有改進後的最終模型，被稱為LLaVA-1.5，它的性能令人印象深刻，大大超過了原始LLaVA。

針對資料、模型和解析度的縮放結果

與SOTA比較

隨後，研究人員在一系列學術VQA基準和專為指令跟隨LMM提出的基準上對LLaVA-1.5進行了測試。

結果表明，LLaVA-1.5不僅可以使用更少的預訓練和指令微調數據，還可以利用最簡單的架構、學術計算和公共數據集來實現最佳的性能——在12個基準中的11個上取得了SOTA。

此外，研究也發現，在提升LMM能力方面，視覺指令微調比預訓練發揮更重要的作用。

而這也讓我們重新思考視覺採樣器的優勢，以及額外的大規模預訓練在多模態指令跟隨能力上的必要性。

在12個基準上與SOTA方法進行比較

回應格式提示

研究人員發現，先前的InstructBLIP等方法無法在短格式和長格式的VQA之間取得平衡，主要原因在於—

首先，與回答格式有關的提示含糊不清。

例如，「Q：{問題｝ A: {答案}」並沒有明確指出理想的輸出格式，即使是自然的視覺對話，也可能導致LLM過度擬合到短格式的答案上。

第二，沒有對LLM進行微調。

例如，InstructBLIP只對Qformer進行了指令微調。雖然可以由此利用Qformer的視覺輸出token來控制LLM輸出的長度，但Qformer與LLaMA等LLM相比容量相對有限，因此可能無法正確地做到這一點。

為了解決這個問題，研究人員建議在VQA問題的結尾，加入一個可以明確輸出格式的提示，進而讓模型產生簡短答案。例如：「用一個單字或短語回答問題」。

當LLM使用此提示進行微調時，LLaVA能夠根據使用者的指示正確微調輸出格式，且不需要使用ChatGPT對VQA資料進行額外處理。

結果顯示，僅在訓練中加入VQAv2，LLaVA在MME上的表現就顯著提高（1323.8 vs 502.8），比InstructBLIP高出了111分

面向學術任務的數據

研究人員進一步增加了學術任務的VQA資料集，用於VQA、OCR和區域級感知，從不同方面提高模型的能力。

他們首先包含了InstructBLIP所使用的四個額外資料集：開放知識VQA。

其中，A-OKVQA被轉換成多選題的形式，並使用特定的回答格式提示——直接用給定選項中的字母作答。

僅使用了InstructBLIP所用資料集的子集，LLaVA就已經在表1中的三項任務中全部超越了InstructBLIP，這表明，LLaVA的設計非常有效。

此外，研究人員還發現，透過進一步添加區域級VQA資料集，可以提高模型定位細顆粒度視覺細節的能力。

Zero-shot格式指令泛化

雖然LLaVA-1.5只用了有限的格式指令來訓練，但它可以泛化到其他格式指令。

例如，VizWiz要求模型在所提供的內容不足以回答問題時，輸出「無法回答」，而LLaVA的回答格式提示就能有效地指示模型這樣做（無法回答的問題佔11.1%→67.8%）。

Zero-shot多語言能力

同時，LLaVA-1.5也沒有針對多語言指令進行微調。但由於ShareGPT中包含大量的相關數據，因此它仍能實現多種語言的多模態指令跟隨。

研究人員在MMBenchCN上定量評估了模型對中文的泛化能力，其中MMBench的問題被轉換為中文。

值得注意的是，LLaVA-1.5比Qwen-VL-Chat的準確率高出7.3%（63.6% vs 56.7%）。其中，Qwen在中文多模態指令上進行了微調，而LLaVA-1.5沒有。

計算成本

對於LLaVA-1.5，研究人員使用了與LCS-558K相同的預訓練資料集，並保持與LLaVA大致相同的指令微調訓練迭代次數和批次大小。

由於影像輸入解析度提高到336px，LLaVA-1.5的訓練時間是LLaVA的2倍：使用8個A100進行6小時的預訓練和20小時的視覺指令微調。

限制

儘管LLaVA-1.5取得了非常好的成績，但必須承認的是，它還存在一些限制。

首先，LLaVA使用了完整的圖像patch，這可能會延長每次訓練迭代的時間。

其次，LLaVA-1.5還不能處理多個影像，原因是缺乏此類指令跟隨數據，以及上下文長度的限制。

第三，儘管LLaVA-1.5能熟練地遵循複雜指令，但其解決問題的能力在某些領域仍會受到限制，這可以透過更強大的語言模型和高品質、有針對性的視覺指令微調資料來改善。

最後，LLaVA-1.5難免會產生幻覺和錯誤訊息，因此在關鍵應用（如醫療）中應謹慎使用。

作者介紹

Haotian Liu

Haotian Liu是威斯康辛大學麥迪遜分校電腦科學的博士生，導師是Yong Jae Lee教授。此前，他在浙江大學獲得了學士學位。

他的研究方向是電腦視覺和機器學習，尤其是視覺感知和理解的高效演算法。最近的研究重點是根據人類的意圖建立可自訂的大模型。

Chunyuan Li

Chunyuan Li是微軟雷德蒙研究院的首席研究員。

此前，他在杜克大學獲得了機器學習博士學位，導師是Lawrence Carin教授。並曾擔任NeurIPS、ICML、ICLR、EMNLP和AAAI的領域主席，以及IJCV的客座編輯。

他最近的研究重點是電腦視覺和自然語言處理中的大規模預訓練。例如，建構遵循人類意圖的大規模多模態模型、視覺和語言預訓練、大規模深度生成模型。

Yuheng Li

Yuheng Li是威斯康辛大學麥迪遜分校電腦科學的博士生，導師是Yong Jae Lee教授。此前，他在華中科技大學獲得學士學位。

他的研究方向是可控的多模態影像生成與處理，以及其他與創意視覺相關的問題。

參考資料：

https://arxiv.org/abs/2310.03744

https://llava-vl.github.io/

正面硬剛GPT-4V浙大校友開源多模態大模型LLaVA-1.5，130億參數8個A100一天訓完