GPT-4V連小學生都不如?最新基準測試錯誤率竟高達90%:紅綠燈認錯、勾股定理也不會


文章來源:新智元

編輯:LRS 好困

馬裡蘭大學發表首個專為VLM設計的基準測試HallusionBench,全面測試GPT-4V視覺錯誤和語言幻覺。

圖片來源:由無界AI生成

GPT-4被吹的神乎其神,作為具備視覺能力的GPT-4版本-GPT-4V,也被大眾寄於了厚望。

但如果告訴你,國中生都知道的勾股定理,只適用於直角三角形。

然而GPT-4V卻自信地將其用於鈍角三角形中計算斜邊長度。

還有更離譜的,GPT-4V直接犯了致命的安全錯誤,竟然認為紅燈可以行駛。

這到底是怎麼回事呢?

馬裡蘭大學的研究團隊在探索過程中發現了這些問題,並在此基礎上提出了兩種主要的錯誤類型:語言幻覺和視覺錯覺,以此來闡述這些錯誤的原因。

論文連結:https://arxiv.org/abs/2310.14566

專案首頁:https://github.com/tianyi-lab/HallusionBench

研究人員依據上述分析,創建了一個名為HallusionBench的圖像-語境推理基準測試,旨在深入探討圖像與語境推理的複雜性。

基於他們的視覺能力的測試,GPT4V在回答視覺問題組的錯誤率高達近90%。

研究者們也對新發布的GPT-4V(ision)和LLaVA-1.5進行了詳細的研究,深入分析了它們在視覺理解方面的能力。

HallusionBench是第一個專為VLM設計的基準測試,主要關注視覺錯覺和知識幻覺。這個測驗包括約200組視覺問答,其中近一半是由人工專家創作的。

目前資料已經開源, 並且還在更新中。

涉及的圖片類型多樣,包括原始的錯覺圖片、K線走勢圖、地圖、海報、影片及手動製作或修改的圖片,涵蓋數學、計數、文化、動漫、體育和地理等多個領域。

論文中,作者初步闡述了HallusionBench中的兩種視覺問題分類:視覺依賴型(Visual Dependent)和視覺補充型(Visual Supplement),並討論了實驗對照組的設計方法。

隨後,他們分析了兩個可能導致答案錯誤的主要原因:視覺錯覺(Visual Illusion)和語言幻覺(Language Hallucination)。

在文末,作者透過不同的子類別詳細展示了各主要類別中的失敗案例,並進行了深入的分析。

關鍵點:

1. 「語言幻覺」:在GPT-4V和LLaVA-1.5會誤導90%的樣本推理。視覺與語言之間的微妙平衡至關重要

2. 「視覺錯覺」:LVLMs中的視覺模組容易受到複雜視覺脈絡的影響,語言模型的錯誤被誇大。

3. 簡單的影像修改就能欺騙GPT-4V和LLaVA-1.5,暴露了對更強大的影像分析能力的需求。

4. GPT-4V在推理多個影像之間的時間關係方面存在困難。

5. LLaVA-1.5有時會在常識查詢上犯錯,需要改進其語言模型先驗。

視覺問題類型

視覺依賴型問題(Visual Dependent):

這類問題的答案完全依賴視覺內容,缺乏影像資訊時無法確切回答。

這些問題通常關聯到圖像本身或其顯示的內容。例如,在沒有圖像的情況下,無法準確回答諸如“圖中右側的橙色圓圈是否與左側的相同大小?”之類的問題。

視覺補充型問題(Visual Supplement):

這些問題即使在沒有視覺內容的情況下也能得到答案。在這種類型的問題中,視覺元素僅提供附加資訊。

例如,即便沒有圖片輔助,​​GPT-4V仍能回答「新墨西哥州是否比德州大?」等問題。

測試的核心在於判斷GPT-4V和LLaVA-1.5能否利用影像內容來作答,而不是只憑它們的參數化記憶。

錯誤分類

作者對錯誤回答進行了分析,並將其原因分為兩大類:

視覺錯誤(Language Hallucination):

這類錯誤產生於輸入影像的錯誤視覺辨識和解釋。模型未能從影像中提取準確資訊或對其進行正確推斷。語言幻覺(Visual Illusion):

模型基於其參數化知識庫,對問題輸入和圖像背景作出不恰當的先入為主的假設。模型應針對問題的具體環境作出反應,而不是忽略問題本身或對影像作出錯誤解讀。

範例

從圖1所展示的經典視覺錯覺案例中可見,GPT-4V在識別各種錯覺圖像及其名稱上顯示出比LLaVA-1.5更豐富的知識儲備。

圖1

然而,在回答經過編輯處理的影像相關問題時,GPT-4V未能提供精確答案。

這種現象可能源自於GPT-4V更依賴其參數化儲存的知識,而不是實際對影像進行分析。

與此相反,無論是處理原始影像或編輯後的影像,LLaVA-1.5的表現都相對較差,這反映出LLaVA-1.5在視覺辨識方面的能力較為有限。

觀察圖2所提供的樣本,可以發現GPT-4V和LLaVA-1.5都未能正確辨識平行線、正三角形、Polygon及其他數學定理。

這現象揭示了,對GPT-4V而言,在處理幾何和數學問題方面仍面臨較大挑戰。

圖2

在圖3的展示中,作者指出了幾則海報,展示的是一些知名的地方美食,但這些美食的地理特徵遭到了改變。

面對這樣的場景,GPT-4V和LLaVA-1.5都未能充分考慮上下文訊息,忽略了圖像內容,繼續根據文本中提及的知名產地來回答相關問題。

圖3

在圖4的案例中,作者進一步探討了多張圖片序列的處理能力。

圖片的順序排列和倒序排列在語意上常表現出對立的意義,例如「出現與消失」和「後退與前進」。

圖4

研究比較表明,儘管這些圖片序列描繪了不同的動態,GPT-4V仍然未能區分這些圖片的順序和逆序排列。

這項發現指出,在影片序列推理方面,GPT-4V仍需大幅的最佳化與提升。

圖5展示了一個案例,在缺乏圖像背景資訊的情境下,GPT-4V提供了一個斷定性的答案。

圖5

相對地,LLaVA-1.5,由於對文本的理解不足,提出了一個技術上無誤但與問題無關的答案。

當以修改後的π值作為視覺輸入,兩個模型都未能從影像中正確辨識並解釋這個值。

圖6的情形顯示,當缺少視覺輸入時,GPT-4V和LLaVA-1.5都能準確且斷定地作出回答。

圖6

然而,在表格作為視覺輸入的情況下,GPT-4V嘗試依據視覺資訊解答,卻誤取了錯誤資料。

例如,GPT-4V錯誤地答道「中國贏得了36枚金牌」,儘管K線走勢圖實際顯示的是美國獲得了這些金牌。

相較之下,LLaVA-1.5更依賴其參數化記憶,在分別處理問題和表格時表現不同。

在圖7的場景中,即使沒有視覺輔助,GPT-4V和LLaVA-1.5都作出了斷定性的答复,其中GPT-4V的答案更為準確和精確。

圖7

當引入K線走勢圖作為視覺輸入,GPT-4V能精準地根據K線走勢圖中的數據給出答案,而LLaVA-1.5則依賴其參數化知識進行回答。

但是,一旦K線走勢圖被超越,GPT-4V對答案的預測發生了根本性變化。這個錯誤可以被解釋為視覺錯覺所引起的。

根據圖8,在缺乏影像支援的情況下,GPT-4V和LLaVA-1.5都提供了確定的回答,但正確答案僅由GPT-4V給出。

圖8

由此可以推斷,GPT-4V在知識層面上優於LLaVA-1.5。

然而,當地圖的視覺呈現發生改變時,兩種模型由於其強大的參數記憶能力,均未能正確推論四個州的相對位置。

總結

近年來,隨著大規模語言模型和多模態研究的快速發展,人工智慧領域經歷了重大的變化。

自然語言處理(NLP)和電腦視覺(CV)的結合,不僅促成了大型視覺語言模型(LVLM)的誕生,而且顯著提高了影像推理任務的表現。

但是,LVLM仍面臨一些挑戰,如語言幻覺和視覺錯覺等問題。

本研究透過推出HallusionBench,旨在為VLM提供一個基準測試,特別是在那些容易因語言幻覺或視覺錯覺而失敗的複雜情況下。

我們對GPT-4V和LLaVA-1.5的不同範例和失敗案例進行了深入探討,包括:

1. 在HallusionBench中,GPT-4V和LLaVA-1.5在處理含有先驗知識的問題時,往往會受到語言幻覺的影響。這些模型更傾向於依賴先驗知識,導致在我們的分析的例子中,超過90%的答案是錯誤的。因此,模型需要在參數化記憶和輸入文字圖片之間找到一個平衡點。

2. 即使在GPT-4V和LLaVA-1.5缺乏參數化記憶或先驗知識的情況下,它們仍然容易受到視覺錯覺的影響。這些模型常在處理幾何圖形、數學影像、視訊(多影像場景)、複雜K線走勢圖等問題時給出錯誤答案。目前,視覺語言模型在視覺處理方面的能力還很有限。

3. GPT-4V和LLaVA-1.5在HallusionBench中容易被一些基本的圖像操作所誤導,如圖像超越、顛倒順序、遮擋、物體編輯以及顏色的修改等。目前的視覺語言模型尚未能有效處理這些影像操作。

4. 雖然GPT-4V支援處理多圖,但在分析涉及時間線索的多圖像問題時,它未能展現出有效的時間推理能力,在HallusionBench中表現欠佳。

5. 在HallusionBench的測試中,LLaVA-1.5由於知識庫相對較少,有時會犯下一些基本的錯誤。

作者表示,他們的資料集已經開源,並且正在繼續擴展資料庫。最新的數據會在Github (https://github.com/tianyi-lab/HallusionBench)上不斷更新。

這項研究為未來更強大、平衡和精準的LVLM奠定了基礎,並期待透過這些詳細的案例研究,為未來研究提供一些可能方向。

參考資料:

https://arxiv.org/abs/2310.14566

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts