港科大&華為諾亞方舟實驗室:吃「有毒」數據,大模型反而更聽話了


來源:量子位元

現在,大模型也學會「吃一塹,長一智」了。

來自香港科技大學和華為諾亞方舟實驗室的最新研究發現:

相較於一味規避“有毒”數據,以毒攻毒,乾脆給大模型餵點錯誤文本,再讓模型剖析、反思出錯的原因,反而能夠讓模型真正理解“錯在哪兒了”,進而避免胡說八道。

具體而言,研究人員提出了「從錯誤中學習」的對齊框架,並透過實驗證明:

讓大模型“吃一塹,長一智”,在糾正未對齊的模型方面超越了SFT和RLHF的方法,而且在對已對齊模型進行高級指令攻擊的防禦方面也具有優勢。

一起來看詳情。

從錯誤中學習的對齊框架

現有的大語言模型對齊演算法主要歸為兩大類:

監督的微調(SFT) 人類回饋的強化學習(RLHF)

SFT方法主要依賴海量人工標註的問答對,目的是讓模型學習「完美的回覆」。但其缺點在於,模型很難從這種方法中獲得對「不良回應」的認知,這可能限制了其泛化能力。

RLHF方法則透過人類標註員對回應的排序打分來訓練模型,使其能夠區分回應的相對品質。在這種模式下,模型學會如何區分答案的高下,但它們對於背後的「好因何好」與「差因何差」卻知之甚少。

總的來說,這些對齊演算法執著於讓模型學習“優質的回應”,卻在資料清洗的過程中遺漏了一個重要環節——從錯誤中學習。

能不能讓大模型像人類一樣,“吃一塹,長一智”,即設計一種對齊方法,讓大模型既能從錯誤中學習,又不受含有錯誤的文本序列影響呢?

△「從錯誤中學習」的大語言模型對齊框架,包含4個步驟,分別是(1)錯誤誘導(2)基於提示指引的錯誤分析(3)無引導的模型微調(4)基於提示引導的回覆生成

香港科技大學和華為諾亞方舟實驗室的研究團隊對此進行了實驗。

透過對Alpaca-7B、GPT-3和GPT-3.5這三個模型的實驗分析,他們得出了一個有趣的結論:

對於這些模型,識別錯誤的回复,往往比在產生回复時避免錯誤來得容易。

△判別比生成容易

並且,實驗還進一步揭示,透過提供適當的指導訊息,例如提示模型“回復中可能存在錯誤”,模型識別錯誤的準確性可以顯著提升。

基於這些發現,研究團隊設計了一種利用模型對錯誤的判別能力來優化其生成能力的全新對齊框架。

對齊流程是這樣的:

(1)錯誤誘導

這一步驟的目標是誘導模型產生錯誤,發現模型的弱點所在,以便後續進行錯誤分析和修正。

這些錯誤案例可以來自於現有的標註數據,或是模型在實際運作中被使用者發現的錯例。

研究發現,透過簡單的紅隊攻擊誘導,例如在模型的指令中添加某些誘導性關鍵字(如「unethical」和「offensive」),如下圖(a)所示,模型往往會產生大量不恰當的回覆。

(2)基於提示引導的錯誤分析

當收集到足夠多包含錯誤的問答對後,方法進入第二步,即引導模型對這些問答對進行深入分析。

具體來說,該研究要求模型解釋為什麼這些回應可能是不正確或不道德的。

如下圖(b)所展示,透過為模型提供明確的分析指導,例如詢問“為什麼這個答案可能是錯誤的”,模型通常能給出合理的解釋。

(3)無引導性的模型微調

在收集了大量的錯誤問答對及其分析後,該研究使用這些數據來進一步微調模型。除了那些包含錯誤的問答對,也加入了正常的人類標註問答對作為訓練資料。

如下圖(c)所示,在這一步驟中,該研究並沒有給模型任何關於回復中是否包含錯誤的直接提示。這樣做的目的是鼓勵模型自行思考、評估並理解出錯的原因。

(4)基於提示引導的回復生成

推理階段採用了基於引導的回復產生策略,明確提示模型產生「正確的、符合道德且無冒犯性」的回复,從而確保模型遵守道德規範,避免受到錯誤文本序列影響。

即,在推理過程中,模型是基於符合人類價值的生成指導,進行條件生成,產生適當的輸出。

△「從錯誤中學習」的大語言模型對齊框架指令範例

以上對齊框架無需人類標註以及外部模型(如獎勵模型)的參與,模型透過利用自身對錯誤的判別能力對錯誤進行分析,進而促進其生成能力。

就像這樣,「從錯誤中學習」可以準確地識別使用者指令當中的潛在風險,並做出合理準確的回應:

實驗結果

研究團隊圍繞著兩大實際應用場景展開實驗,驗證新方法的實際效果。

場景一:未經對齊的大語言模型

以Alpaca-7B模型為基線,研究採用了PKU-SafeRLHF Dataset資料集進行實驗,與多種對齊方法進行了比較分析。

實驗結果如下表所示:

當保持模型的有用性時,「從錯誤中學習」的對齊演算法在安全通過率上相比SFT、COH和RLHF提高了大約10%,與原始模型相比,提升了21.6%。

同時,研究發現,由模型本身產生的錯誤,相較於其他資料來源的錯誤問答對,展現了更好的對齊效果。

△未經過對齊的大語言模型實驗結果

場景二:已對齊模型面臨新型指令攻擊

研究團隊進一步探索如何加強已經過對齊的模型,以應對新出現的指令攻擊模式。

這裡,研究選擇了ChatGLM-6B作為基準模型。 ChatGLM-6B已經經過安全對齊,但面對特定指令攻擊時仍可能產生不符合人類價值的輸出。

研究人員以「目標劫持」這種攻擊模式為例,並使用含有此攻擊模式的500條資料進行了微調實驗。如下表所示,「從錯誤中學習」的對齊演算法在面對新型指令攻擊時展現出了強大的防禦性:即使只使用少量的新型攻擊樣本數據,模型也能成功保持通用能力,並在針對新型攻擊(目標劫持)的防禦上實現了16.9%的提升。

實驗也進一步證明,透過「從錯誤中學習」策略所獲得的防禦能力,不僅效果顯著,而且具有很強的泛化性,能夠廣泛應對同一攻擊模式下的多種不同話題。

△經過對齊的模式抵禦新型攻擊

論文連結:
https://arxiv.org/abs/2310.10477

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts