分解大模型的神經元Claude團隊最新研究火了,網友:打開黑盒


原文來源:量子位元

圖片來源:由無界AI生成

神經網路的不可解釋性,一直是AI領域的「老大難」問題。

但現在,我們似乎取得了一絲進展——

ChatGPT最強競對Claude背後的公司Anthropic,利用字典學習成功將大約500個神經元分解成了約4000個可解釋特徵。

具體而言,神經元具有不可解釋性,但經過這一分解,Anthropic發現每一個特徵都代表了不同的意義,例如有的分管DNA序列,有的則表示HTTP請求、法律文本等等,也就是具備了可解釋性。

而透過人為地刺激其中任一特徵,就能引導模型給出我們預期之內的輸出。

例如開啟DNA特徵就能讓模型輸出DNA,開啟阿拉伯文字特徵就讓模型輸出阿拉伯文字。

Anthropic激動地表示:

他們這一方法很可能克服AI不可解釋性這一巨大障礙。
而一旦我們能夠了解語言模型的工作原理,就能輕易地判斷一個模型是否安全,從而決定它是否應該被社會和企業所採用。

具體來看。

用字典學習分解語言模型

首先,光針對語言模型來說,它的不可解釋性主要體現在網路中的大多數神經元都是「多語意的」。

即它們可以對多個不相關的事物進行回應。

例如,一個小型語言模型中的某個神經元會同時對學術引文、英語對話、HTTP請求、韓語文字等不同內容表現出強烈的活化狀態。

而這會阻礙我們了解神經網路每一小部分的具體功能和互動過程,因此無法對整個網路的行為進行推論。

那麼,是什麼原因造成了多語意性這項特徵呢?

早在去年,Anthropic就推測其中一個潛在的因素是「疊加」(superposition)。

這指的是模型將許多不相關的概念全部壓縮到一個少量神經元中的操作。

同時,Anthropic也指出,字典學習──就是提取事物最本質的特徵,最終讓我們像查字典一樣獲取新知識,是解決這個問題的方法。

在此之前,他們已經提出了一個疊加玩具模型,並證明:

如果一個對模型有用的特徵集在訓練資料中是稀疏的,那麼該神經網路在訓練過程中可以自然地產生疊加。
基於這個玩具模型,他們提出了三種策略來找到一組稀疏且可解釋的特徵:一是創建沒有疊加的模型,然後透過鼓勵激活稀疏性;

二是使用字典學習在表現出疊加的模型中找到超完備的特徵基礎;

三是將前兩種方法混合使用。

經過實驗證明,方法一不足以杜絕多語意性,方法二則有嚴重的過度擬合問題。

於是在此,團隊又採用了一種稱為稀疏自動編碼器的弱字典學習演算法。

它能夠從經過訓練的模型生成學習特徵,提供比模型神經元本身更單一語意的分析單元。

總的來說,演算法建立在大量先前的成果之上,特別是在神經網路活化上使用字典學習的相關方法,以及解耦(disentanglement)相關的內容。

最終所得編碼器在從疊加中提取可解釋性特徵方面取得了「令人信服的成功」。

具體來說,Anthropic採用一個具有512個神經元的MLP單層transformer,透過在具有80億個資料點的MLP活化上訓練稀疏自動編碼器,最終將MLP活化分解為相對可解釋的特徵,擴展因子範圍可以從1x(512個特徵)成長到256x(131072個特徵)。

Anthropic團隊將他們得到的可解釋性分析全部中心化在一個稱為A/1的運行中,共包含4096個特徵,每個特徵都註明了含義,它們可以按照預期被人工激活。

下面是它們的視覺化K線走勢圖:

整合長篇報告發布,7個關鍵結論

現在,Anthropic將以上全部成果以報告的形式發布。

報告題為《邁向單義性:透過字典學習分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning)。

篇幅非常長,共分為四部分,分別為:

問題設置,闡述研究動機,以及他們訓練的transformer和稀疏自動編碼器。特徵詳細調查,即“存在性證明”,證明他們發現的特徵確實是功能上特定的因果單元。全局分析,顯示所得特徵是可解釋的,並且它們能夠解釋MLP層的重要部分。現象分析,描述特徵的幾個屬性,包括特徵分割性、普遍性等,以及它們如何形成一個有趣的、類似「有限狀態自動機」的系統。

總的來看,關鍵結論一共有7個:

1、我們能夠用稀疏自動編碼器提取相對單一語意的特徵,但大多數學習到的特徵都是相對可解釋的。

2.稀疏自動編碼器產生可解釋的特徵,在神經元基礎中基本上是不可見的。

3.稀疏自動編碼器功能可用於介入和引導transformer的生成。

例如,啟動Base64特徵會導致模型產生Base64文本,啟動阿拉伯文字特徵會產生阿拉伯文本。

4.稀疏自動編碼器產生相對通用的特徵。特徵彼此之間的相似性比它們與自己模型神經元之間的相似度更高(對應“普遍性”一節)。

5.當我們增加自動編碼器的大小時,特徵似乎會「分裂」。例如一個小型字典中的Base64特徵在較大的字典中會分成三個,每個都具有更微妙但仍可解釋的意思(對應「特徵分割性」一節)。

6.僅512個神經元就可以代表數萬個特徵。

7.特徵可以在類似「有限狀態自動機」的系統中實現連接,從而完成複雜的行為(例如產生HTML功能)。

One More Thing

在評論區,有網友評價:

神經元就像一個神秘的盒子,Anthropic這項工作就等於研究如何偷看盒子中的內容。

顯然,這項工作還只是一個開頭——

Anthropic同時也正在加緊招募可解釋性相關的研究員和工程師。

點開來看,薪資在25萬美元(約180萬元)-52萬美元之間,研究內容跟如上報告息息相關。

報告連結:
https://transformer-circuits.pub/2023/monosemantic-features/index.html

參考連結:
https://twitter.com/anthropicai/status/1709986949711200722

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts