RLHF再也不需要人類了,谷歌團隊研究證明,AI標註已達人類水平


原文來源:新智元

圖片來源:由無界AI‌ 生成

如果說,RLHF中的「人類」被取代,可行嗎?

谷歌團隊的最新研究提出了,用大模型替代人類,進行偏好標註,也就是AI反饋強化學習(RLAIF)。

論文地址:https://arxiv.org/abs/2309.00267‌

結果發現,RLAIF可以在不依賴人類標註員的情況下,產生與RLHF相當的改進效果,勝率50%。

同時,谷歌研究再次證明了RLAIF和RLHF,比起監督微調(SFT)勝率都超過了70%。

如今,大型語言模型訓練中一個關鍵部分便是RLHF。人類通過對AI輸出的質量進行評級,讓回應更加有用。

但是,這需要付出很多的努力,包括讓許多標註人員暴露在AI輸出的有害內容中。

既然RLAIF能夠與RLHF相媲美,未來模型不需要人類反饋,也可以通過自循環來改進。

RLHF不需要人類了

當前,RLHF已經成為微調大模型的核心方法,包括ChatGPT、Bard等模型都採用這一範式。

具體來說,RLHF分為三步:預訓練一個監督微調LLM;收集數據訓練一個獎勵模型;用RL微調模型。

有了RLHF,大模型可以針對複雜的序列級目標進行優化,而傳統的SFT很難區分這些目標。

然而,一個非常現實的問題是,RLHF需要大規模高質量的人類標註數據,另外這些數據能否可以取得一個優勝的結果。

在谷歌這項研究之前,Anthropic研究人員是第一個探索使用AI偏好來訓練RL微調的獎勵模型。

他們首次在「Constitutional AI」中提出了RLAIF,發現LLM與人類判斷表現出高度一致,甚至在某些任務上,表現優於人類。

但是,這篇研究沒有將人類與人工智能反饋做對比,因此,RLAIF是否可以替代RLHF尚未得到終極答案。

谷歌最新研究,主要就是解決這個問題。

研究人員在模型摘要任務中,直接比較了RLAIF和RLHF。

給定1個文本和2個候選答案,使用現成的LLM給出一個偏好標註。

然後,根據LLM偏好和對比損失訓練獎勵模型(RM)。最後,通過強化學習微調策略模型,利用獎勵模型給出獎勵。

那麼,谷歌與Anthropic提出的RLAIF方法有什麼不同?

谷歌自己在文中解釋道,

– 谷歌:根據AI標註的偏好訓練獎勵模型,然後進行RL微調。

– Constitutional AI:通過迭代,要求LLM根據憲法生成更好的響應,來改進監督學習模型。

AI自標註,自我改進

谷歌在最新研究中提出的RLAIF方法,過程是怎樣的?

大語言模型進行偏好標註

研究人員用「現成的」LLM來標註對兩個候選項之間的偏好。

這是一個針對一般用途進行預訓練或指令調整的模型,但未針對特定下游任務進行微調。給定一段文本和兩個候選摘要,LLM被要求評價哪個摘要更好。 LLM 的輸入結構如下:

1. 序言

介紹和描述手頭任務的說明

2. 多個樣本實例(可選)

一段文本、一對摘要、思路的基本原理和偏好判斷

3.要標註的樣本

一段文本和一對要標註的摘要

4.結尾

提示LLM 的結束字符串(例如「Preferred Summary=」)

在給LLM提供輸入後,研究人員獲得生成token「1」和「2」的對數概率,併計算softmax以獲得偏好分佈。

從LLM獲取偏好標註的方法有很多,例如從模型中解碼自由形式的響應並啟發式地提取偏好(例如:output=「the first summary is better」),或者將偏好分佈表示為單熱表示(one -hot representation)。然而,研究人員沒有嘗試這些替代方案,因為他們的方法已經產生了很高的準確性。

研究人員試驗了兩種類型的序言:第一種是「Base」,它簡單地詢問「哪個摘要更好?」,第二種是「OpenAI」,它模仿了生成OpenAI TL;DR 偏好數據集的人類偏好標註器的評級指令,包含有關構成強摘要的詳細信息。如下圖所示。

研究人員還通過在提示中添加少量樣本來嘗試上下文學習,其中手動選擇樣本來涵蓋不同的主題。解決位置偏差。

之前的研究結果表明,向LLM展示候選項的順序可能會影響LLM判斷更喜歡的候選項。研究人員發現證據表明存在這種位置偏差,尤其是對於較小尺寸的標註LLM。

為了減輕偏好標註中的位置偏差,研究人員對每對候選項進行兩次推理,候選項提交給LLM的順序二次推理是相反的。然後對兩個推推理的結果進行平均以獲得最終的偏好分佈。

思維鏈推理

研究人員嘗試從AI標註器中引出思維鏈(COT) 推理,以提高與人類偏好的一致性。

研究人員替換標準的結尾提示(例如將「Preferred Summary=」替換為「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale:」),然後解碼一個LLM的回复。

最後,研究人員將原始提示、響應和原始結尾字符串“Preferred Summary=”連接在一起,並按照第3.1 節中的評分過程來獲得偏好分佈。具體過程見下圖。

在零樣本提示中,LLM沒有給出推理應該是什麼樣子的示例,而在少量樣本提示中,研究人員提供了模型要遵循的COT推理示例。示例請參見下圖。

自洽性(Self-Consistency)

對於思維鏈提示,研究人員還嘗試了自洽性——一種通過對多個推理路徑進行採樣並聚合每個路徑末尾產生的最終答案來改進思維鏈推理的技術。

使用非零解碼溫度(non-zero decoding temperature)對多個思維鏈基本原理進行採樣,然後按照上一節中的方法獲得每個思維鏈的LLM偏好分佈。然後對結果進行平均以獲得最終的偏好分佈。

AI反饋的強化學習

在LLM對偏好進行標註後,將訓練獎勵模型(RM)來預測偏好。由於研究人員的方法產生軟標註(Soft Label),他們採用RM生成的獎勵分數的softmax的交叉熵損失(cross-entropy loss),而不是獎勵模型中提到的損失。

Softmax將RM的無界分數(unbounded scores)轉換為概率分佈。

在AI標註數據集上訓練RM可以被視為模型蒸餾的一種形式,特別是因為研究人員的AI標註器通常比RM更大、更強。

另一種方法是繞過RM並直接使用AI反饋作為RL中的獎勵信號,儘管這種方法的計算成本更高,因為AI標註器比RM更大。

通過經過訓練的RM,研究人員使用適用於語言建模領域的Advantage Actor Critic (A2C)算法的修改版本進行強化學習。

評價

研究人員通過三個指標評估他們的結果– AI標註器對齊、配對準確度和勝率。

AI標註器對齊時用來衡量AI標註偏好相對於人類偏好的準確性。

對於單個示例,將軟人工智能標註的偏好轉換為二進製表示。如果標註與目標人類偏好一致則分配1,否則分配0。

配對準確性是衡量經過訓練的獎勵模型相對於一組保留的人類偏好的準確性。

給定共享上下文和一對候選響應,如果根據人類標註,RM對首選候選的評分高於非首選候選,則配對準確度為1。否則該值為0。該數量是多個示例的平均值,以衡量RM的總體精度。

勝率通過衡量人類更喜歡一項策略頻率來評估兩項策略的端到端質量。

給定一個輸入和兩次生成結果,人類標註者選擇首選哪一個生成結果。策略A優於策略B的實例百分比稱為「A對B的勝率」。

實驗細節

研究人員使用由OpenAI管理的經過過濾的Reddit TL;DR 數據集。 TL;DR包含來自Reddit的約300萬個帖子,涉及各種主題(也稱為「subreddits」)以及原作者撰寫的帖子摘要。

數據還經過OpenAI過濾,以確保高質量,其中包括使用普通大眾可以理解的Reddit主題白名單。

此外,僅包含摘要中含有24到48個標註的帖子。過濾後的數據集包含123,169個帖子,其中約5%作為驗證集。

有關數據集的更多詳細信息可以在原始論文中找到。此外, OpenAI從過濾後的TL;DR數據中心化整理了一個人類偏好數據集。

對於給定的帖子,根據不同的策略生成兩個候選摘要,並要求標註器對他們喜歡的摘要進行評分。總數據集包含大約92k成對比較。

LLM標註

為了評估AI標註技術的有效性(例如提示、自洽性),研究人員從TL;DR偏好數據中心化選擇示例,其中人類標註者會偏好置信度更高的摘要。

研究人員在數據集訓練分割的隨機15%子集上評估AI標註器對齊,以實現更快的實驗迭代,生成2851個評估示例。

對於獎勵模型訓練,TL;DR偏好數據集的完整訓練分割由LLM標註並用於訓練,無論置信度分數如何。

模型訓練

研究人員使用PaLM 2 Extra-Small (XS)作為初始檢查點,在OpenAI過濾後的TL;DR數據集上訓練SFT模型。

然後,研究人員從SFT模型初始化RM,並在OpenAI的TL;DR人類偏好數據集上訓練它們。

對於表1和5.1中的結果,研究人員使用PaLM 2L生成AI標註的偏好,使用「OpenAI + COT 0-shot」提示(,沒有自洽性,然後在完整的偏好上訓練RM數據集。

對於強化學習,研究人員使用Advantage Actor Critic (A2C)來訓練策略。策略和價值模型都是從SFT模型初始化的。研究人員使用過濾後的Reddit TL;DR 數據集作為初始狀態來推出他們的策略。

人類評估

研究人員收集了1200個人類評級來評估RLHF和RLAIF策略。對於每項評級任務,評估人員都會收到一篇帖子和4個根據不同策略(RLAIF、RLHF、SFT和人類參考各一個)生成的摘要,並要求按照質量順序對它們進行排名,不存在任何联系。

帖子取自TL;DR監督微調數據集的保留集,該數據集未用於任何其他評估。一旦收集了這些排名,就可以計算任意兩項策略的勝率。

勝率50%,打平手

RLAIF vs. RLHF

文章開篇,已經介紹了谷歌將RLAIF與RLHF相比較的優勢,結果表明,兩種方法有著相似的性能。

具體來說,與基線SFT相比較,在71%的情況下,人類評估者更喜歡RLAIF。 73%的情況下,RLHF優於SFT。

研究人員還直接比較了RLAIF和RLHF的勝率,發現它們受歡迎程度是等同的——即勝率都是50%。

為了進一步了解這兩種策略的差異,谷歌對其生成的摘要進行了定性比較。

另外,他們還將RLAIF和RLHF摘要與人工編寫的參考摘要進行比較。 79%的情況下,RLAIF生成的摘要優於參考摘要,80%的情況下,RLHF結果優於參考摘要。

可見,RLAIF和RLHF與參考摘要之間的勝率只差1%,並沒有顯著的差異。

值得注意的是,研究人員還發現,RLHF策略出現幻覺的頻率,往往高於RLAIF,如上表紅色標註的文字。

在控制摘要長度後,RLAIF和RLHF策略仍然優於基線SFT,並取得了相似的勝率。

這些結果表明,RLAIF不需要依賴於人工標註,是RLHF的可行替代方案。

提示技巧

在使用提示技巧中,谷歌團隊嘗試了三種類型的提示技術,preamble specificity、CoT、少樣本上下文學習。

結果發現,通過詳細的OpenAI序言進行提示,並進行CoT推理,AI標註器可以取得78%的一致性。

而情境學習不會提高準確性,甚至可能會使準確性變得更糟。

自洽性

研究人員使用4和16個樣本進行自洽性實驗,解碼溫度為1。

以T = 1對多個思維鏈原理進行採樣,結果與人類偏好的一致性較低。

大模型標註器的規模

研究還發現,擴大大模型標註器的參數規模,可能會產生更高質量的偏好標註。

偏好示例數量

獎勵模型的準確性如何隨訓練示例進行變化?

研究人員發現,需要經過數千個示例訓練後,獎勵模型的性能接近於完整數據集的訓練。

結論

研究人員證明了RLAIF可以在不依賴人類標註者的情況下產生與RLHF相當的改進。

雖然這項工作凸顯了RLAIF 的潛力,但依然有一些局限性。

首先,這項研究僅探討了總結任務,關於其他任務的泛化性還需要進一步研究。

其次,研究人員沒有估計LLM推理在經濟成本上是否比人工標註更有優勢。

此外,還有一些有趣的問題值得研究,例如RLHF與RLAIF相結合是否可以優於單一的一種方法,使用LLM直接分配獎勵的效果如何,改進AI標註器對齊是否會轉化為改進的最終策略,以及是否使用LLM與策略模型大小相同的標註器可以進一步改進策略(即模型是否可以「自我改進」)。

網友熱議

谷歌發表了兩篇關於RL的論文:

1. RLAIF:訓練與人類反饋類似的獎勵模型

2. ReST:使用生成模型促進自訓練將這兩篇論文結合起來,可以滿足那些對數據飢渴的人工智能算法

半個月前,谷歌DeepMind剛剛提出了一個新算法ReST,為了使大規模語言模型與人類偏好保持一致。

具體通過離線強化學習方法,改進大型語言模型的翻譯質量,以更好地符合人類偏好。

一位研究人員表示,根據定性測試,Anthropic的Claude模型似乎比GPT-4弱。這可能是RLHF/RLAIF方法或預訓練造成的。目前還不清楚這些方法在實際應用中的泛化效果是否更好,即使它們在學術基准上的表現更好。

我不會說這降低了人工標註的重要性,但有一點可以肯定,人工智能反饋的RL可以降低成本。人工標註對於泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。

大部分網友認為論文是很大的突破,但也有網友覺得這和Anthropic在幾個月前提出的Constitute Claude中的RLAIF似乎沒有本質的區別。

參考資料:

https://arxiv.org/abs/2309.00267

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts