MIT驚人證明:大語言模型就是「世界模型」?吳恩達觀點再被證實,LLM竟能理解空間和時間


文章來源:新智元

MIT的兩位學者發文力證:大語言模型能夠理解世界他們的工作表明,LLM不僅僅學習了表面的統計數據,還學習了包括空間和時間等基本維度的世界模型。

在大語言模型內部,是否有世界模型?

LLM是否具有空間感?並且在多個時空尺度上都是如此?

最近,MIT的幾位研究者發現,答案是肯定的

論文網址:https://arxiv.org/abs/2310.02207

他們發現,在Llama-2-70B竟然能夠描繪出研究者真實世界的文字地圖。

在空間表徵上,研究者對世界各地數以萬計的城市、地區和自然地標的名稱運行了Llama-2模型。

他們在最後的token激活時訓練了線性探測器,然後發現:Llama-2可以預測每個地方真實緯度和經度。

在時間表徵上,研究者對過去3000年名人的名字、1950年以來的歌曲、電影和書籍的名稱以及2010年代的《紐約時報》頭條新聞運行了模型,並訓練了線性探針(linear probe)成功預測到了名人的死亡年份、歌曲電影書籍的發布日期和新聞的出版日期。

總之,一切結論都顯示:LLM不僅僅是隨機鸚鵡——Llama-2包含世界的詳細模型,毫不誇張地說,人類甚至在大語言模型中發現了一個「經度神經元」

這項工作一推出,立刻獲得熱烈反響。作者在推上轉發了論文的概要,不到15小時閱讀量就已超過140萬

網友紛紛驚呼:這份工作太了不起了

有人表示:直覺上,這是合理的。因為大腦正是提煉了我們的物理世界,將其儲存在生物網路中。當我們「看到」事物時,它們實際上就是我們的大腦在內部處理的投射。

令人難以置信的是,你們竟然能夠對此進行建模

有人持相同觀點,表示或許是我們試圖模仿大腦的方式欺騙了造物主。

LLM不是隨機鸚鵡

先前,許多人就這樣猜想:大語言模型表現出的驚人能力,或許只是因為它學習了大量膚淺的統計數據集合,而並不是因為它是一個包含數據生成過程的連貫模型(也即世界模型) 。

2021年,華盛頓大學語言學家Emily M. Bender發表了一篇論文,認為大型語言模型不過是「隨機鸚鵡」(stochastic parrots)而已,它們並不理解真實世界,只是統計某個字詞出現的機率,然後像鸚鵡一樣隨機產生看起來合理的字句。

由於神經網路的不可解釋性,學術界也無法理解語言模型到底是不是隨機鸚鵡,各方觀點差異分歧極大。

由於缺乏廣泛認可的測試,模型是否能「理解世界」也成為了哲學問題,而非科學問題。

然而MIT的研究者發現,LLM在多個尺度上都學習了空間和時間的線性表徵,而這些表徵對不同的提示變化具有穩健性,並且在不同的環境類型(如城市和地標)中具有統一性。

他們甚至發現,LLM還具有獨立的「空間神經元」和「時間神經元」,可以可靠地編碼空間和時間座標。

也就是說,LLM絕不僅僅是學習了表面的統計數據,而是獲得了關於空間和時間等基本維度的結構化知識。

總之,大語言模型能夠理解世界。

LLM能理解空間與時間

在這篇論文中,研究人員提出了一個問題:LLM是否能透過資料集內容形成世界(以及時間)模型。

研究人員試圖透過從LLM中提取真實的世界地圖,來回答這個問題。

具體來說,研究人員建立了六個資料集,其中包含跨越多個時空維度的地點或事件名稱以及相應的空間或時間座標:

其中包括了世界範圍內的地址,美國國內的地址和紐約市範圍內的地址。

另外資料集還包括了不同的時間座標:

1)歷史人物的死亡年份

2)過去3000 年的歷史

3)20 世紀50 年代以來藝術作品和娛樂節目的發布日期

4)2010年至2020年新聞頭條的發布日期

使用Llama 2 系列模型,研究人員訓練了線性回歸探針(probe),研究了這些地點和事件在模型每一層的名稱的內部激活,來預測它們的真實世界位置或時間。

這些探索性的實驗揭示了模型在整個早期層中建構空間和時間表徵的證據,然後在模型中點附近達到穩定狀態(plateauing),這個過程的結果在較大的模型的表現始終優於較小的模型。

進一步,研究者證明這些表徵是

(1)線性的,因為非線性探針表現不佳

(2)對提示的變化能有很高的穩健性

(3)不同類型的概念之間是相似的(例如,城市和自然地標之間是相似的)

研究人員認為,對於這個結果的一種可能的解釋是,模型僅學習了從地方到國家的映射,而探針實際上學習了這些不同群體在地理空間(或時間)上如何相關的全球地理結構。

為了研究這一點,研究人員進行了一系列穩健性檢查,以了解探針如何在不同的資料分佈上進行泛化以及在PCA 元件上訓練的探針如何執行。

研究人員的研究結果表明,探針記住了這些概念的「絕對位置」,但模型確實具有一些反映「相對定位」的表徵。

換句話說,探針學習了從模型中的座標到人類可解釋座標的映射。

最後,研究人員使用探針來尋找作為空間或時間函數活化的單一神經元,提供強有力的證據證明模型確實使用了這些特徵。

準備工作

為了進行調查,研究人員建立了六個實體名稱(人物、地點、事件等)的資料集,其中還包括了它們各自的位置或發生的時間,每個資料集的規模大小不同。

對於每個資料集,研究人員包含多種類型的實體,例如城市等人口稠密的地方和湖泊等自然地標,以研究不同物件類型的統一表示。

此外,研究人員優化並且豐富了相關元數據(metadata),以便能夠透過更詳細的細分來分析數據,識別訓練測試洩漏的來源。

位置資訊

研究人員建構了世界、美國和紐約市的三個地名資料集。研究人員的世界資料集是根據DBpedia Lehmann 等人查詢的原始資料建構的。

進一步,研究人員囊括了人口稠密的位置、自然位置和結構性位置(例如建築物或基礎設施)。然後,研究人員將這些內容與維基百科文章進行匹配,並過濾掉三年內頁面瀏覽量不低於5000次的實體。

研究人員的美國資料集包括了城市、縣、郵遞區號、大學、自然地點和結構的名稱,其中人口稀少或查看位置類似地被過濾掉。

紐約市資料集包含城市內的學校、教堂、交通設施和公共住宅等位置。

時間資訊

研究人員的三個時間資料集包括:

(1) 西元前1000 年至西元2000 年之間去世的歷史人物的姓名和職業,

(2) 使用維基百科頁面瀏覽量過濾技術從DBpedia構建了包括1950年至2020 年歌曲、電影和書籍的標題和作者;

(3) 2010 年至2020 年《紐約時報》新聞頭條,來自撰寫時事新聞的新聞專欄。

資料準備

研究人員所有的實驗都是使用基礎版的Llama 2系列模型展開的,涵蓋70 億到700 億個參數。

對於每個資料集,研究人員透過模型運行每個實體名稱,可能會在前面加上一個簡短的提示,並將隱藏狀態(殘留流,residual stream)的啟動(activation)保存在每層的最後一個實體token上。

對於一組n個實體,這會為每個層產生一個

激活數據集。

探針

為了尋找LLM中空間和時間表徵的證據,研究人員使用標準探針技術。

它在網路活化(network activations)上擬合一個簡單的模型,用來預測與標記輸入資料相關的一些目標標籤(target label)。特別是,給定活化資料集A ∈ Rn×dmodel 和包含時間或二維緯度和經度座標的目標Y,研究人員擬合了線性嶺回歸探針(fit linear ridge regression probes)。

從而獲得了線性探針:

對樣本外數據的高預測性能表明基礎模型在其表示中具有可線性解碼的時間和空間信息,儘管這並不意味著該模型實際上使用了這些表徵。

在所有實驗中,研究人員在探針訓練集上使用有效的留出交叉驗證(efficient leave-out-out cross validation)來調整λ。

空間和時間的線性模型

存在性

研究者首先研究這個實證問題:模型是否表徵時間與空間?如果是這樣,在模型內部的什麼位置?表徵品質是否會隨著模型規模的變化而顯著變化?

在研究人員的第一個實驗中,研究人員為每個空間和時間資料集的Llama 2-{7B, 13B, 70B} 的每一層訓練了探針。

研究人員的主要結果下圖所示,顯示了跨資料集相當一致的模式。特別是,空間和時間特徵都可以透過線性探針恢復。

隨著模型規模的增加,這些表示會變得更加準確,並且在達到穩定狀態之前,模型前半層的表示品質會平穩提高。

這些觀察結果與事實回憶文獻的結果一致,顯示早期到中期的MLP 層負責回憶事實主題的資訊。

性能最差的數據集是紐約市數據集。考慮到大多數實體與其他資料集相比相對模糊,這是預料之中的。

然而,這也是最大模型具有最佳相對性能的資料集,其R幾乎是較小模型的2倍,這表明足夠大的LLM最終可以形成各個城市的詳細空間模型。

線性表徵

在可解釋性的文獻中,越來越多的證據支持線性表徵假設—神經網路中的特徵是線性表示的。

也就是說,可以透過將相關活化投影到某個特徵向量來讀出特徵的存在或強度。然而,這些結果幾乎總是針對二元或分類特徵,與空間或時間的自然連續特徵不同。

為了測試空間和時間特徵是否以線性方式表示,研究人員將線性嶺回歸探針(linear ridge regression probes)的性能與更具表現力的非線性MLP ( more expressive nonlinear MLP)的性能進行了比較。

結果如下,顯示對於任何資料集或模型,使用非線性探針對R 的改進微乎其微。

研究人員將此作為強有力的證據,證明空間和時間也可以線性表示(或至少是線性可解碼的),儘管它們是連續的。

對提示詞的敏感性

另一個很明顯的問題是,這些空間或時間特徵是否對提示詞敏感,即上下文能否誘發或抑制對這些事實的回憶?

直觀地,對於任何實體token,自回歸模型都會被激勵來產生適合解決任何未來可能的上下文或問題的表徵。

為了研究這個問題,研究人員創建了新的激活資料集,其中研究人員按照幾個基本主題為每個實體標記添加了不同的提示。在所有情況下,研究人員都包含了一個「空」提示,除了實體token(以及序列token的開頭)之外不包含任何內容。

然後,研究人員添加一個提示,要求模型回憶相關事實,例如「的經緯度是多少?」或「 的發行日期是哪一天?」

對於美國和紐約市的資料集,研究人員還包含這些提示的版本,詢問該位置位於美國或紐約市的哪個位置,以消除常見地點名稱的歧義(例如市政廳)。

作為基線,研究人員包括10 個隨機token的提示(針對每個實體進行採樣)。為了確定研究人員是否可以混淆主題,對於某些資料集,研究人員將所有實體的名稱完全大寫。

最後,對於標題資料集,研究人員嘗試探測最後一個token和附加到標題的句號token。

上圖是70B模型的結果,下圖是所有模型的結果。

研究人員發現,明確提示模型輸入訊息,或給出消歧提示,例如某個地方位於美國或紐約市,對表現幾乎沒有影響。然而,研究人員對隨機幹擾token降低表現的程度感到驚訝。

將實體名稱大寫也會降低效能,儘管不那麼嚴重且不也不太出乎意料,因為這可能會幹擾實體的「去token化」。

顯著提高性能的一項修改是對標題後面的句號token進行探測,表明句號包含了結尾的句子的一些摘要資訊。

穩健性檢測

上一節已經表明,不同類型的事件或地點的真實時間或空間點可以從LLM中後期層的內部激活中線性恢復。

然而,這並不意味著模型是否(或如何)實際上使用了由探針學習到的特徵方向,因為探針本身可以學習模型實際使用的更簡單特徵的一些線性組合。

透過泛化進行驗證

為了說明研究人員的結果的潛在問題,考慮表示完整世界地圖的任務。

如果模型如研究人員所期望的那樣,「在X 國」具有幾乎正交的二元特徵,然後可以透過將每個國家的這些正交特徵向量相加來建立高品質的緯度(經度)探針,其係數等於該國的緯度(經度)該國。

假設一個地方僅位於一個國家,這樣的探測會將每個實體置於其國家質心。

然而,在這種情況下,模型實際上並不代表空間,僅代表國家成員資格,並且它只是從顯式監督中學習不同國家幾何形狀的探針。

為了更好地區分這些情況,研究人員分析了探針在提供特定資料區塊時如何泛化。

特別是,研究人員訓練了一系列探針,對於每個探針,研究人員分別提供世界、美國、紐約市、歷史人物、娛樂和頭條新聞資料集的一個國家、州、行政區、世紀、十年或年份。

然後研究人員評估對保留的數據塊的探測。在上表中,研究人員報告了完全保留時資料區塊的平均鄰近誤差,與預設訓練-測試分割中該區塊的測試點的誤差(對所有保留區塊進行平均)進行比較。

研究人員發現,雖然泛化表現受到影響,特別是對於空間資料集,但它明顯優於隨機資料集。透過繪製下圖中所標註的州或國家的預測,一幅更清晰的圖樣就這樣出現了。

世界範圍

也就是說,探針透過將點放置在正確的相對位置(透過真實質心和預測質心之間的角度測量)而不是絕對位置來正確地進行概括。

研究人員將此視為微弱的證據,表明探針正在透過模型提取顯式學習的特徵,但正在記住從模型座標到人類座標的轉換。

然而,這並不能完全排除潛在的二元特徵假設,因為可能存在不遵循國家或十年邊界的此類特徵的層次結構。

跨實體泛化

到目前為止,研究人員的討論中隱含的主張是,該模型以統一的方式表示不同類型實體(如城市或自然地標)的空間或時間座標。

然而,與緯度探測可能是隸屬特徵的加權和( be a weighted sum of membership features)類似,緯度探測也可以是城市緯度和自然地標緯度的不同(正交)方向的總和。

與上方類似,研究人員透過訓練一系列探針來區分這些假設,其中執行訓練測試分割以保留特定實體類別的所有點如下表所示,了鄰近度與保留時相比,預設測試拆分中的實體的誤差,如之前對所有此類拆分進行平均。

結果表明,探針在很大程度上概括了實體類型,只有娛樂資料集除外。

空間和時間神經元

雖然之前的這些結果很有啟發性,但沒有任何證據直接顯示模型使用了探針學習到的特徵。

為解決這個問題,研究人員搜尋了具有輸入或輸出權重的單一神經元,這些權重與學習的探測方向具有高餘弦相似性。

也就是說,研究人員尋找的神經元,其讀取或寫入的方向與探針學習到的方向相似。

他們發現,在將活化資料集投射到最相似神經元的權重上時,這些神經元確實對實體在空間或時間上的真實位置高度敏感。

也就是說,模型中存在個別神經元,它們本身就是具有相當預測能力的特徵探針。

此外,這些神經元對資料中心化的所有實體類型都很敏感,這就更加表明了,這些表徵是統一的。

如果說,在顯性監督下訓練的探針,是模型表示這些空間和時間特徵程度的近似上限,那麼單一神經元的表現就是下限。

特別是,學者通常認為特徵是疊加分佈的,這使得單一神經元的分析層次是錯誤的。

儘管如此,這些單一神經元的存在(除了下一個token預測之外,它們沒有接受任何監督)仍然是強有力的證據,證明模型學習並使用了空間和時間的特徵。

奧賽羅GPT證明LLM理解世界,獲吳恩達力贊

啟發MIT研究者最直接的靈感,就是先前對深度學習系統在多大程度上形成資料生成過程的可解釋模型的研究。

而最有力、最清晰的演示,無疑就來自在國際象棋和奧賽羅遊戲上訓練的GPT模型了——這些模型對於棋盤和遊戲狀態都有明確的表徵。

今年2月,來自哈佛大學、麻省理工學院的研究人員共同發表了一項新研究Othello-GPT,在簡單的棋盤遊戲中驗證了內部表徵的有效性。

他們認為語言模型的內部確實建立了一個世界模型,而不只是單純的記憶或統計,不過其能力來源還不清楚。

論文連結:https://arxiv.org/pdf/2210.13382.pdf

實驗過程非常簡單,在沒有任何奧賽羅規則先驗知識的情況下,研究人員發現模型能夠以非常高的準確率預測出合法的移動操作,捕捉棋盤的狀態。

吳恩達在「來信」專欄中對該研究表示高度認可,他認為基於該研究,有理由相信大型語言模型建構出了足夠複雜的世界模型,在某種程度上來說,確實理解了世界。

部落格連結:https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

棋盤世界模型

如果把棋盤想像成一個簡單的「世界」,並要求模型在對局中不斷決策,就可以初步測試出序列模型是否能夠學習到世界表徵。

研究人員選擇一個簡單的黑白棋遊戲奧賽羅(Othllo)作為實驗平台,其規則是—

在8*8棋盤的中心位置,先放入四個棋子,黑白各兩個;然後雙方輪流下子,在直線或斜線方向,己方兩子之間的所有敵子(不能包含空格)全部變為己子(稱為吃子),每次落子必須有吃子;最後棋盤全部佔滿,子多者為勝。

相較於西洋棋來說,奧賽羅的規則簡單得多;同時棋類遊戲的搜尋空間夠大,模型無法透過記憶完成序列生成,所以很適合測試模型的世界表徵學習能力。

Othello語言模型

研究人員首先訓練了一個GPT變體版語言模型(Othello-GPT),將遊戲腳本(玩家所做的一系列棋子移動操作)輸入到模型中,但模型沒有關於遊戲及相關規則的先驗知識。

模型也沒有被明確訓練以追求策略提升、贏得對局等,只是在產生合法奧賽羅移動操作時準確率比較高。

數據集

研究人員使用了兩組訓練資料:

錦標賽(Championship)更關注數據質量,主要是從兩個奧賽羅錦標賽中專業的人類玩家採用的、更具戰略思考的移動步驟,但分別只收集到7605個和132921個遊戲樣本,兩個數據集合並後以8:2的比例隨機分成訓練集(2000萬個樣本)和驗證集(379.6萬個)。

合成(Synthetic)更關注數據的規模,由隨機的、合法的移動操作組成,數據分佈不同於錦標賽數據集,而是均勻地從奧賽羅遊戲樹上採樣獲得,其中2000萬個樣本用於訓練, 379.6萬個樣本用於驗證。

每場遊戲的描述由一串token組成,詞表大小為60(8*8-4)。

模型和訓練

模型的架構為8層GPT模型,具有8個頭,隱藏維度為512。

模型的權重完全隨機初始化,包括word embedding層,雖然表示棋盤位置的詞表內存在幾何關係(如C4低於B4),但這種歸納偏移並沒有明確表示出來,而是留給模型學習。

預測合法移動

模型的主要評估指標就是模型預測的移動操作是否符合奧賽羅的規則。

在合成資料集上訓練的Othello-GPT錯誤率為0.01%,在錦標賽資料集上的錯誤率為5.17%,相較之下,未經訓練的Othello-GPT的錯誤率為93.29%,也就是說這兩個資料集都一定程度上讓模型學會了遊戲規則。

一個可能的解釋是,模型記住了奧賽羅遊戲的所有移動操作。

為了驗證這個猜想,研究人員合成了一個新的資料集:在每場比賽開始時,奧賽羅有四個可能的開局棋位置(C5、D6、E3和F4),將所有C5開局的走法移除後作為訓練集,再以C5開局的資料作為測試,也就是移除了近1/4的賽局樹,結果發現模型錯誤率仍只有0.02%。

所以Othello-GPT的高性能並不是因為記憶,因為測試資料是訓練過程中完全沒見過的,那到底是什麼讓模型成功預測?

探索內部表徵

一個常用的神經網路內部表徵探測工具是探針(probe),每個探針是一個分類器或回歸器,其輸入由網路的內部活化組成,並經過訓練以預測感興趣的特徵。

在這個任務中,為了偵測Othello-GPT的內部活化是否包含目前棋盤狀態的表徵,輸入移動序列後,用內部活化向量對下一個移動步驟進行預測。

使用線性探針時,訓練後的Othello-GPT內部表徵只比隨機猜測的準確率高了一點點。

當使用非線性探針(兩層MLP)時,錯誤率大幅下跌,證明了棋盤狀態並不是以簡單的方式儲存在網路激活中。

幹預實驗

為了確定模型預測和湧現世界表徵之間的因果關係,即棋盤狀態是否確實影響了網路的預測結果,研究人員進行了一組幹預(intervention)試驗,並測量由此產生的影響程度。

給定來自Othello-GPT的一組激活,用探針預測棋盤狀態,記錄相關聯的移動預測,然後修改激活,讓探針預測更新的棋盤狀態。

幹預操作包括將某個位置的棋子從白色變成黑色等,一個小的修改就會導致模型結果發現內部表徵能夠可靠地完成預測,即內部表徵與模型預測之間存在因果影響。

視覺化

除了乾預實驗驗證內部表徵的有效性外,研究人員還將預測結果可視化,比如說對於棋盤上的每個棋子,可以詢問模型如果用乾預技術將該棋子改變,模型的預測結果將如何變化,對應預測結果的顯著性。

可以看到,在合成和錦標賽資料集上訓練的Othello-GPTs的top1預測的潛顯著性圖中都展現出了清晰的模式。

總之,從哈佛和MIT的這項研究可以看出,大語言模型的確理解了世界,無怪乎會得到吳恩達的讚賞了。

GPT-4只是AGI的火花? LLM終將退場,世界模型才是未來

為什麼「世界模型」如此吸引人?

這正是因為,人工智慧的終極形態和發展的最終目標——通用人工智慧(AGI),一個「能夠理解世界的模型」,而不僅僅是「描述世界的模型」。

1931 年,Kurt Gödel發表了不完備性定理。

Gödel定理表明,即使是數學也無法最終證明一切——人類始終會有無法證明的事實——而量子理論則說明,研究人員的世界缺乏確定性,使研究人員無法預測某些事件,例如電子的速度和位置。

儘管愛因斯坦曾表達過「上帝不會與Cosmos玩骰子」這一著名的觀點,但從本質上講,僅僅在預測或理解物理中的事物時,人類的局限性就已經體現得淋漓盡致。

在“How We Learn”一書中,學者Stanislas Dehaene將學習定義為「形成世界模型的過程」。

2016年,AlphaGo在圍棋比賽中以4 比1 的大比分擊敗世界冠軍李世石。

然而,它缺乏人類那種識別不常見戰術,並做出相應調整的能力。因此,它只是一種弱人工智慧。

而研究者所需的AGI,是一個與經驗一致且能做到準確預測的世界模型。

4月13日,OpenAI的合作夥伴微軟發布了一篇論文「Sparks of Artificial General Intelligence:Early experiments with GPT-4」(通用人工智慧的火花:GPT-4的早期實驗)。

論文網址:https://arxiv.org/pdf/2303.12712

其中提到:

GPT-4不僅掌握了語言,還能解決涵蓋數學、編碼、視覺、醫學、法律、心理學等領域的前沿任務,且不需要人為增加任何的特殊提示。
並且在所有上述任務中,GPT-4的表現水準幾乎與人類水準相當。基於GPT-4功能的廣度和深度,研究人員相信它可以合理地被視為通用人工智慧的近乎但不完全的版本。

然而,就如同諸多專家所批評的,錯誤地將表現等同於能力,意味著GPT-4產生的是對世界的摘要性描述認為是對真實世界的理解。

現在大多數的模型僅接受文字訓練,不具備在現實世界中說話、聽聲、嗅聞以及生活行動的能力。

就彷彿柏拉圖的洞穴寓言,生活在洞穴中的人只能看到牆上的影子,而無法認識到事物的真實存在。

而無論是哈佛和MIT 2月的研究,還是今天的這篇論文,都指出了大語言模型的確在某種程度上能夠理解世界,而不僅僅是保證自己在語法上的正確。

僅僅是這些可能性,已經夠令人振奮。

參考資料:

https://arxiv.org/abs/2310.02207

Do language models have an internal world model? A sense of time? At multiple spatiotemporal scales?

In a new paper with @tegmark we provide evidence that they do by finding a literal map of the world inside the activations of Llama-2! pic.twitter.com/3kZmf3fa6q

— Wes Gurnee (@wesg52) October 4, 2023

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts