圖片來源:由無界AI生成
多模態大模型落地的風,最後還是刮了起來。
十幾天前,OpenAI 為ChatGPT 增加了影像辨識功能,讓使用者可以使用上傳一張或多張影像配合進行對話。從OpenAI 自己公開的簡短文檔,我們得知, ChatGPT 識圖功能的背後是一個名為GPT-4V 的新款大模型。
實際上,這項能力在半年前GPT-4 發布之時就已存在,但一直未對一般用戶公開。在AI 領域,多模態大模型早已成為公認的趨勢,也被認為是通用AI 助手的關鍵模組。
鑑於OpenAI 對「閉源」的堅持,許多研究者也率先推出了自己的多模態大模型研究成果。例如兩大代表作“LLaVA”和“MiniGPT-4”,都在自然指令追蹤和視覺推理能力方面展示了令人印象深刻的結果。
今年4 月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發表了LLaVA(Large Language and Vision Assistant)。儘管LLaVA 是用一個小的多模態指令資料集訓練的,但在一些樣本上展示了與GPT-4 非常相似的推理結果。
如今,這項成果迎來重磅升級:LLaVA-1.5 已正式發布,透過對原始LLaVA 的簡單修改,在11 個基準上刷新了SOTA。
論文網址:https://browse.arxiv.org/pdf/2310.03744.pdf Demo 網址:https://llava.hliu.cc/
僅使用120 萬公開數據,LLaVA-1.5 在單一8-A100 節點上用不到1 天的時間就完成了訓練。
在論文中,研究者介紹了兩項簡單的改進:一個MLP 跨模態連接器,以及合併VQA 等學術任務相關數據。與LLaVA 一起使用時,這兩項改進帶來了更好的多模態理解能力。
相較於InstructBLIP 或Qwen-VL 在數億甚至數十億的圖像文字配對資料上訓練專門設計的視覺重採樣器,LLaVA 使用了最簡單的架構設計,只需要在600K 個圖像– 文字對上訓練一個簡單的全連接投影層。
和GPT-4V 比,能不能打?
在讀論文之前,我們先來看看LLaVA-1.5 的辨識能力如何,能不能與GPT-4V 較量。
命題一:將雜貨轉換為JSON
指示:需要識別所有水果(僅水果),然後為每種水果創建一個具有名稱屬性和營養屬性的對象,營養屬性包括估計熱量、碳水Compound、脂肪和蛋白質屬性。
LLaVA-1.5 的回答結果:
GPT-4V 的回答結果:
命題二:從簡化的草圖辨識電影名稱
指令:這個圖講的是哪部電影?註:我改了角色的名字,讓辨識變得更難。
LLaVA-1.5 的回答結果:
GPT-4V 的回答結果:
論文細節
LLaVA 在視覺推理方面表現出值得稱讚的能力,在現實生活中的視覺指令任務的各種基準上超越了多個最新模型,而僅在通常需要簡短答案的學術基準上有所欠缺。研究團隊認為後者歸因於LLaVA 沒有像其他方法一樣在大規模資料上進行預訓練。
具體來說,該研究首先在下表1 中選擇的三個資料集上分析了擴展資料、模型和輸入影像解析度的影響;然後在表2 中的12 個不同基準上進行比較實驗。實驗結果表明,LLaVA 架構對於視覺指令調整而言功能強大且資料高效,並且使用比所有其他方法少得多的計算和訓練資料實現了最佳性能。
回應格式prompt
研究發現:InstructBLIP 等方法無法在短格式和長格式VQA 之間取得平衡主要有兩點原因:
首先,給LLM 的prompt 在回應格式上不明確。例如,「Q:{問題} A:{答案} 」這樣的prompt 並不能清楚地闡明所需的輸出格式。即使對於自然的視覺對話,也可能使LLM 過度適合給出簡短的答案。
其次,沒有對LLM 進行微調。例如,InstructBLIP 需要Qformer 的視覺輸出token 來控制LLM 的輸出長度(長格式/ 短格式),但由於其容量有限,Qformer 可能缺乏正確執行此操作的能力。
為了解決這個問題,研究提出使用一個明確指定輸出格式的「回應格式prompt」,例如當需要模型給出簡短答案時,在VQA 問題的末尾加一句:「使用單字語或短語回答問題」。
研究透過實驗顯示:當LLM 使用此類prompt 進行微調時,LLaVA 能夠根據使用者的指令適當調整輸出格式,且不需要使用ChatGPT 對VQA 資料進行額外處理。
此外,研究還發現,與原始模型相比,透過雙層MLP 提高視覺– 語言連接器的表徵能力可以提高LLaVA 的多模態能力。並且,該研究還針對學術任務擴展了數據,包括額外的學術任務導向的VQA 數據集,用於VQA、OCR 和區域級感知,以增強模型的多模態能力。
有興趣的讀者可以閱讀論文原文,了解更多研究內容。
參考連結:
🚨 BREAKING: GPT-4 image recognition already has a new competitor.
Open-sourced and completely free to use.
Introducing LLaVA: Large Language and Vision Assistant.
I compared the viral parking space photo on GPT-4 Vision to LLaVa, and it worked flawlessly (see video). pic.twitter.com/0V0citjEZs
— Rowan Cheung (@rowancheung) October 7, 2023
🚀 LLaVA-1.5 is out! Achieving SoTA on 11 benchmarks, with simple mods to original LLaVA! Utilizes merely 1.2M public data, trains in ~1 day on a single 8-A100 node, and the surscale, and s.
🔗https://t.co/y0kG0WZBVa
🧵1/5 pic.twitter.com/kMz0LTk63R
— Haotian Liu (@imhaotian) October 6, 2023
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載