GPT-4不知道自己錯了LLM新缺陷曝光，自我修正成功率僅1%，LeCun馬庫斯驚呼越改越錯

GPT-4根本不知道自己犯錯？最新研究發現，LLM在推理任務中，自我修正後根本無法挽救表現變差，引AI大佬LeCun馬庫斯圍觀。

原文來源：新智元

圖片來源：由無界AI生成

大模型又爆出重大缺陷，引得LeCun和馬庫斯兩位大佬同時轉發關注

在推理實驗中，聲稱可以提高準確度的模型自我修正，把正確率從16%「提高」到了1%

簡單來說，就是LLM在推理任務中，無法透過自我修正的形式來改善輸出，除非LLM在自我修正的過程中已經知道了正確答案。

由ASU研究人員發表的兩篇論文，駁斥了先前許多研究提出的方法「自我修正」──讓大模型對自己的輸出的結果進行自我修正，就能提升模型的輸出品質。

論文網址：https://arxiv.org/abs/2310.12397

論文網址：https://arxiv.org/abs/2310.08118

論文的共同作者Subbarao Kambhampati教授，一直致力於AI推理能力的相關研究，9月就發表過一篇論文，甚至全盤否定了GPT-4的推理和規劃能力。

論文網址：https://arxiv.org/pdf/2206.10498.pdf

而除了這位教授之外，最近DeepMind和UIUC大學的研究者，也針對LLM在推理任務中的「自我糾正」的能力提出了質疑。

這篇論文甚至呼籲，所有做相關研究的學者，請嚴肅對待你們的研究，不要把正確答案告訴大模型之後再讓它進行所謂的「自我糾正」。

因為如果模型不知道正確答案的話，模型「自我修正」之後輸出品質反而會下跌。

https://arxiv.org/abs/2310.01798

接下來，就具體來看看這兩篇最新論文。

GPT-4「自我修正」，輸出結果反而更差

第一篇論文針對GPT-4進行研究，讓GPT-4對圖形著色問題提供解決方案，然後讓GPT-4對於自己提出方案進行「自我修正」。

同時，作者引入一個外部的評估系統對GPT-4的直接輸出，並經過了「自我修正」循環之後的輸出進行評估。

實驗結果顯示，GPT-4在猜測顏色的準確率不到20%，這個數值似乎也不讓人意外。

但令人驚訝的是，「自我糾正」模式下的準確性卻大幅下跌（下圖第二根柱狀條）——與所有自我糾正本意完全背道而馳

作者認為，這種看似反直覺的情況可以這麼解釋：GPT-4在驗證正確答案的表現也很糟糕

因為即使當GPT-4偶然猜到正確顏色時，它的「自我糾正」會使它覺得正確答案是有問題的，然後就把正確答案給替換掉了。

經過進一步研究後也發現：如果外部驗證器給GPT-4猜測出的顏色提供了可以被證實的正確答案，GPT-4確實會改進它的解決方案。

在這種情況下，經過「自我修正」產生的提示詞，確實可以提高輸出結果的品質（上圖的第3-5根長條圖）

總結來看，就是對於「著色問題」任務，GPT-4獨立的「自我修正」反而會損害輸出的效能，因為GPT-4無法驗證答案是否正確。

但如果能提供外部正確的驗證過程，GPT-4產生的「自我修正」確實能提升效能。

而另一篇論文，從規劃任務的角度來研究了大語言模型「自我修正」的能力，研究結果也和上一篇論文類似。

而且，研究人員發現，真正能提高輸出準確性的不是LLM的「自我修正」，而是外部獨立驗證器的回饋。

歸根究底，還是在於LLM沒有辦法進行獨立的驗證，必須依賴外部的驗證器給出的「正確答案」，才能有效地進行「自我修正」。

「著色問題」表現不佳，LLM無法獨立驗證正確答案

研究設計框架

「著色問題」是非常經典的推理問題，即使難度不大，答案也足夠多樣性，而且答案的正確性很容易進行驗證。

多樣性的結果使得LLM的訓練資料很難覆蓋全，盡量避免了LLM的訓練資料被污染的可能性。

這些原因使得「著色問題」很適合用來研究LLM的推理能力，也很方便用來研究LLM在推理中「自我修正」的能力。

研究人員建立了自己的資料集，使用GrinPy2來處理常見的圖操作。每個圖都是使用Erdos-Rényi方法（ ˝p = 0.4）建構的。

一旦找到正確的答案，它就會被編譯成標準的DIMACS格式，並附加上一個包含其預計算的色數（chromatic number）的註釋。

對於接下來的實驗，研究人員產生了100個實例，每個實例平均有24條邊，分佈在從10到17的節點數範圍內——這一分佈是因為經驗顯示，它是一個表現足夠多變的範圍。

研究人員使用的圖例如下圖1所示，這個流程包括LLM的第一次回覆、該回覆的返回提示（backprompt）以及最終正確的圖色方案。

迭代返回提示（Iterative Backprompting）的架構

提示產生器（Prompt Generator）：

這個提示詞產生器會選取一個DIMACS實例，並將每條邊翻譯成一個句子，然後將整體點評在一組通用指令中，從而建構出一個自然語言提示詞。

研究人員有意縮小不同實例提示之間的差異，以減少研究人員向LLM洩露的問題特定資訊。各種類型提示的範例可以在附錄中找到。

大型語言模式：

透過OpenAI API來呼叫GPT-4，這是目前最先進的模型。

研究者提供一個系統角色：「你是一個解決各種CSP（約束滿足問題）的限制條件滿足求解器」。

傳回提示詞生成（Backprompt Generation）

在驗證模式下，LLM會收到不同類型的提示。

除了標準指令外，它只包含圖的描述和建議的著色方案。它的任務是驗證正確性、最優性以及每個頂點是否都已經被塗上了一個顏色。

如果產生的回覆中有一組邊是矛盾的，那麼著色方案就是錯誤的。

為了比較每個點，研究人員也建構了一個能夠列出每個矛盾邊的驗證器。

由於LLM的回應也是自然語言形式的，研究人員首先將它們翻譯成便於分析的格式。為了使這個過程更加一致，研究人員設計了最初的提示，以描述一個模型需要遵循的精確輸出格式。然後，該響應會被評估其正確性。

為了判斷LLM驗證結果，研究人員會檢查它們在找出建議的著色方案中的錯誤方面表現如何。

直觀地說，這些應該很容易識別：如果組成一個邊的兩個頂點共享一個顏色，立即返回該邊。從演算法角度看，只需要偵測所有的邊並比較每個頂點的顏色與其連接點的顏色。

驗證

為了更深入了解LLM的驗證能力，研究人員研究了它們在找出提出的著色方案中的錯誤方面的表現。

直觀來說，這些錯誤應該很容易識別：如果組成一個邊的兩個頂點共享一個顏色，則立即返回該邊。從演算法角度來看，所有需要做的就是遍歷所有邊，並將每個頂點的顏色與其對應頂點的顏色進行比較。

研究人員使用相同的分析流程，但建構了一個研究人員稱為color_verification的新領域。 LLM被引導去檢查著色的正確性、最優性以及是否每個頂點都已經被賦予了一個顏色。

如果著色是不正確的，它被指示列出著色中的錯誤，即如果兩個連接的節點共享一種顏色，就傳回該邊以表示該錯誤。沒有給出返回提示（backprompts）。

研究人員使用先前相同的圖實例，但產生了四種用於測試模型的著色方案：

正確（Correct）：透過迭代的、隨機的貪婪演算法產生的沒有錯誤的最優著色方案（使用預先計算的色數以確保最優性）。

缺失（Ablated）：將先前一組著色方案中的一個隨機節點改為其鄰居的顏色。

非最優（Non-optimal）：在正確的集合中，隨機選擇一個顏色部分重新著色為一個新的色調。

隨機（Random）：完全隨機分配的顏色，不同顏色的數量等於圖的色數。

LLM：從先前實驗中LLM產生的輸出中隨機選取的著色方案。

結論

對LLM進行提示、評估答案，並在沒有任何回傳提示（backprompts）的情況下就會進入下一個實例，得到的基線分數為16%。

當研究人員運行相同的實例，但這次使用相同的語言模型充當驗證者產生的回饋進行返回提示時，效能急劇下跌——100個實例中只有一個得到了正確的答案。

與外部合格的驗證器進行返回提示的結果起初看似更有效果。

正確回答的實例數量接近40%，但如果這意味著GPT-4在聽取、改進，並根據回饋進行推理，那麼研究人員期望更準確的回傳提示會帶來更好的結果。

然而，在這個域中，原始分數（見上圖2）並沒有證明這一點。

LLM的驗證能力

研究人員測試了GPT-4在相同實例上驗證圖著色方案的能力，為每個實例產生了五種不同類型的著色方案。

明顯的結果是，與上面的LLM自我修正結果完全一致：模型幾乎不願意將任何答案標記為正確。在100個最優著色方案中，它只同意其中2個是正確的。

整個500個著色方案的集合，其中118個是正確的，它只聲稱其中30個是正確的。在這30個中，其實只有5次是正確的。

整體而言，這一模式保持不變。在不到10%的案例中，LLM給出了「正確」、「非最優」或「缺少賦值」的反應。在這些情況中，行為看似有些隨機。

在大約四分之一的實例中，它用“這是不正確的”驗證作出回應，而解釋與現實相符，而且它只通過指明不超過一個邊來實現這一點，從而最小化了錯誤陳述某事的機會。

結果如上表2所示。請注意，當域的錯誤率增加時，幻覺比例就會下跌。也就是說，當有更多的不正確的邊時，模型更有可能指出其中出錯的情況。

LLM自我批評，性能不增反減

在12日提交的論文中，作者同樣得出了與上面一致的結論。

無論是規劃，還是簡單的算術或邏輯，目前最先進的大模型GPT-4也無法完全勝任。

許多研究人員對其進行了許多的探索和改進，其中包括讓LLM學會自我迭代、自我驗證等策略來提升表現。

由此，業界人們Optimism地認為，大模型還有拯救

然而，經典意義上的推理任務複雜度與大模型無關，因為LLM是採用近似檢索而非精確推理的模型。

在12日提交arXiv的論文中，ASU研者係統性地評估和分析LLM在規劃任務中的自我批評，以及迭代優化的能力。

研究中，作者提出了一個包含生成器LLM和驗證器LLM的規劃系統。

其中，GPT-4生成器負責產生候選計劃，GPT-4驗證器負責驗證計劃的正確性並提供回饋。

然後，研究人員在Blocksworld規劃領域上進行了實驗，並對以下方面進行了實證評估：

– 自我批評對整個LLM+LLM系統的計劃生成表現的影響

– 驗證器LLM相對於地面真值驗證的性能;

– 在批評LLM生成時，同回饋等級對整體系統表現的影響。

結果表明，與使用外部可靠的驗證器相比，自我批評會降低LLM規劃生成效能。

效能下跌可以直接歸因於驗證器LLM的糟糕結果，驗證器LLM產生了大量的假優勢，這可能嚴重損害系統的可靠性。

驗證器LLM的二元分類準確率僅61%，存在大量的假優勢（將錯誤規劃判斷為正確）。

另外，根據回饋的詳細程度對比，發現其對規劃生成效能影響不大。

總的來說，這項研究的系統性調查提供了初步證據，對於LLM作為迭代、自我批評框架內規劃任務驗證者的有效性提出質疑。

作者介紹

Subbarao Kambhampati

Subbarao Kambhampati是亞利桑那州立大學電腦科學教授。 Kambhampati研究規劃和決策中的基本問題，特別是受人類感知人工智慧系統挑戰的推動。

參考資料：

Can LLMs really self-critique (and iteratively improve) their solutions, as claimed in the literature?🤔

Two new papers from our group investigate (and call into question) these claims in reasoning (https://t.co/3K1cVJ3lEt) and planning (https://t.co/4VIwOJeJqT) tasks.🧵 1/ pic.twitter.com/8Fa6MlCQaB

— Subbarao Kambhampati (కంభంపాటి సుబ్బారావు) (@rao2z) October 21, 2023

Ouch! https://t.co/s3nQrtM1Wd

— Gary Marcus (@GaryMarcus) October 21, 2023