DeepMind指出「Transformer無法超出預訓練資料實現泛化」,但有人投來質疑


難道Transformer 注定無法解決「訓練資料」以外的新問題?

原文來源:機器之心

圖片來源:由無界AI生成

說起大語言模型所展示的令人印象深刻的能力,其中之一就是透過提供上下文中的樣本,要求模型根據最終提供的輸入產生一個回應,從而實現少樣本學習的能力。這一點依靠的是底層機器學習技術「Transformer 模型」,它們也能在語言以外的領域執行上下文學習任務。

過去的經驗表明,對於在預訓練混合體中充分體現的任務族或函數類,選擇適當函數類進行上下文學習的成本幾乎為零。因此有研究者認為,Transformer 能很好地泛化與訓練資料相同分佈的任務/ 函數。然而,一個普遍的懸而未決的問題是:在與訓練資料分佈不一致的樣本上,這些模型表現如何?

在最近的一項研究中,來自DeepMind 的研究者藉助實證研究,對這個問題進行了探討。他們將泛化問題解釋為以下內容:「一個模型能否利用不屬於預訓練資料混合體中任何基本函數類別的函數的上下文樣本產生良好的預測?(Can a model generate good predictions with in-context examples from a function not in any of the base function classes seen in the pretraining data mixture? )」

這篇論文重點放在了預訓練過程的一個特定方面:「預訓練中使用的數據」,並研究它如何影響由此產生的Transformer 模型的少樣本學習能力。為了解決上述問題,研究者首先探討了Transformer 在預訓練中看到的不同函數類族之間進行模型選擇的能力(第3 節),然後回答了幾個重點案例的OOD 泛化問題(第4節)。

論文網址:https://arxiv.org/pdf/2311.00871.pdf

他們發現:首先,預訓練Transformer 在預測從預訓練函數類別中提取的函數的凸組合時非常吃力;其次,Transformer 雖然可以有效泛化函數類別空間中較罕見的部分,但當任務變得不在分佈範圍內時,Transformer 仍然會崩盤。

歸納為一句話就是,Transformer 無法泛化出預訓練資料以外的認知- 因此也解決不了認知以外的問題。

整體來說,本文的貢獻如下:

使用多種不同函數類別的混合體對Transformer 模型進行預訓練,以便進行上下文學習,並描述了模型選擇行為的特徵; 研究了預訓練Transformer 模型在與預訓練資料中函數類別「不一致」的函數上的上下文學習行為; 強有力的證據已經表明,模型在上下文學習過程中可以在預訓練的函數類中進行模型選擇,而幾乎不需要額外的統計成本,但也存在有限證據,表明模型的上下文學習行為能夠超出其預訓練資料的範圍。

這位研究者認為,這對安全方面來說也許是個好消息,至少模型不會「為所欲為」。

但也有人指出,這篇論文所使用的模型不太適合——「GPT-2 規模」意味著本文模型大概是15 億參數作用,這確實很難泛化。

接下來,我們先來看看論文細節。

模型選擇現象

在對不同函數類別的資料混合體進行預訓練時,會遇到一個問題:當模型看到預訓練混合體支援的上下文樣本時,如何在不同函數類別之間進行選擇?

研究者發現,模型在看到屬於預訓練資料混合體的函數類別的上下文樣本後,會做出最佳(或接近最佳)預測。他們也觀察了模型在不屬於任何單一成分函數類別的函數上的表現,然後在第4 節中探討了一些與所有預訓練資料完全不相關的函數。

首先從線性函數的研究開始,線性函數在情境學習領域受到了廣泛關注。去年,史丹佛大學Percy Liang 等人的論文《What Can Transformers Learn In-Context? A Case Study of Simple Function Classes》表明,對線性函數進行預訓練的Transformer 在對新的線性函數進行上下文學習時表現近乎最佳。

他們特別考慮了兩個模型:一個是在密集線性函數(線性模型的所有係數都非零)上訓練的模型,另一個是在稀疏線性函數(20 個係數中只有2 個係數非零)上訓練的模型。在新的密集線性函數和稀疏線性函數上,每個模型的表現分別與線性迴歸和Lasso 迴歸相當。此外,研究者還將這兩個模型與在稀疏線性函數和密集線性函數的混合體上預先訓練的模型進行了比較。

如圖1 所示,該模型在一個

混合體在情境學習中的表現與只對一個函數類別進行預訓練的模型相似。由於混合體預訓練模式的表現與Garg et al.[4] 的理論最優模型相似,研究者推論模型也接近最優。圖2 中的ICL 學習曲線表明,這種情境模型選擇能力與所提供的上下文範例數量相對一致。在圖2 中也可以看到,對於特定函數類,使用各種non-trivial 權重

預訓練資料混合體的ICL 學習曲線幾乎與最優基線樣本複雜度相符。所能觀察到的偏差很小,而且隨著ICL 樣本數量的增加,偏差迅速減小,這與圖1 中對應ICL 學習曲線上一個點的行為相符。

圖2 也顯示,Transformer 模型的ICL 泛化會受到分佈外的影響。儘管密集線性類別和稀疏線性類別都是線性函數,但可以看到圖2a 中紅色曲線(對應於只在稀疏線性函數上進行預訓練並在密集線性資料上進行評估的Transformer)的效能很差,反之亦然,圖2b 中茶色曲線的表現也很差。研究者在其他非線性函數類別中也觀察到了類似的表現。

回到圖1 的實驗,將誤差繪製為整個可能範圍內非零係數數量的函數,結果顯示,在w = .5 的混合體上預處理的模型,

,在整個過程中的表現與在混合體上預處理的模型(即w = 0 以及w = 1)一樣好(圖3a)。這表明該模型能夠進行模型選擇,以選擇是否僅使用預訓練混合體中一個基函數類的知識或另一個基函數類的知識進行預測。

事實上,圖3b 顯示,當上下文中提供的樣本來自非常稀疏或非常密集的函數時,預測結果幾乎與只使用稀疏資料或只使用密集資料預訓練的模型預測結果完全相同。然而,在兩者之間,當非零係數的數量≈4 時,混合預測結果偏離了純密集或純稀疏預訓練Transformer 的預測結果。

這表明對混合體進行預訓練的模型並不是簡單地選擇單一函數類別進行預測,而是預測介於兩者之間的結果。

模型選擇能力的限制

然後,研究者從兩個方向檢查了模型的ICL 泛化能力。首先,測試了模型在訓練中從未見過的函數上的ICL 性能;其次,評估了模型在預訓練中見過的函數的極端版本上的ICL 性能。

在這兩種情況下,研究幾乎沒有發現分佈外泛化的證據。當函數與預訓練期間看到的函數相差很大時,預測就會不穩定;當函數足夠接近預訓練資料時,模型可以很好地近似。

圖3a 展示了Transformer 在中等稀疏等級(nnz = 3 to 7)下的預測與預訓練時提供的任一函數類別的任何預測都不相似,而是介於兩者之間。因此,人們可能會假設該模型具有某種歸納偏差,使其能夠以非平凡的方式組合預先訓練的函數類別。例如,人們可能懷疑該模型可以根據預訓練期間看到的函數組合來產生預測。為了在具有明顯不相交函數類別的背景下檢驗這一假設,研究者探討了對線性函數、正弦曲線和兩者的凸組合執行ICL 的能力。他們將重點放在一維情況上,使非線性函數類別的評估和視覺化變得簡單。

圖4 顯示,雖然在線性函數和正弦曲線的混合上預先訓練的模型(即

)能夠分別對這兩個函數中的任何一個做出良好的預測,它無法擬合兩者的凸組合函數。這顯示圖3b 所示的線性函數內插現象並不是Transformer 情境學習的可概括的歸納偏差。然而,它繼續支持更狹隘的假設,即當情境樣本接近預訓練中學習的函數類別時,模型能夠選擇最佳函數類別用於預測。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts