給大模型評分的基準可靠嗎? Anthropic來了次大評估


文章來源:機器之心

在大模型(LLM)盛行的當下,評估AI 系統成為了重要的一環,在評估過程中都會遇到哪些困難,Anthropic 的一篇文章為我們揭開了答案。

圖片來源:由無界AI生成

現階段,大多數圍繞人工智慧(AI)對社會影響的討論可歸結為AI 系統的某些屬性,例如真實性、公平性、濫用的可能性等。但現在面臨的問題是,許多研究人員並沒有完全意識到建立穩健可靠的模型評估是多麼困難。現今許多現有的評估套件在各方面的表現都很有限。

AI 新創公司Anthropic 最近在其官方網站上貼出了一篇文章《評估AI 系統所面臨的挑戰》。文中寫道,他們花了很長的時間來建立對AI 系統的評估,以便更好地理解AI 系統。

文章地址:https://www.anthropic.com/index/evaluating-ai-systems

本文主要從以下幾個面向展開討論:

多項選擇評估(Multiple choice evaluations); 利用第三方評估框架,如BIG-bench 和HELM; 讓工作人員來衡量模型是有益的還是有害的; 讓領域專家對相關威脅進行紅隊分析(red team) ; 使用生成式AI 來發展評估方法; 與非營利組織合作,審核模型是否具有危害。

多項選擇評估面臨的挑戰

多項選擇評估看似簡單,其實不然。本文討論了模型在MMLU(Measuring Multitask Language Understanding)和BBQ(Bias Benchmark for QA)基準上的挑戰。

MMLU 資料集

MMLU 是一個包含57 個多選問答任務的英文評測資料集,涵蓋數學、歷史、法律等,是目前主流的LLM 評測資料集。準確率越高,代表模型的能力越強。但本文發現使用MMLU 有四個挑戰:

1. 由於MMLU 被廣泛使用,因而就不可避免的遇到這種情況,模型在訓練過程中更容易將MMLU 資料納入。這和學生在考試前看到題目是一樣的── 這是作弊。

2. 對簡單的格式變化敏感,例如將選項從(A) 更改為(1),或在選項和答案之間添加額外的空格,這些做法都可能導致評估準確率約有5% 的浮動。

3. 有些開發人員有針對性的來提高MMLU 分數,例如少樣本學習或思考鏈推理。因此,在比較各實驗室的MMLU 分數時必須非常小心。

4.MMLU 可能沒有經過仔細的校對- 有研究者在MMLU 中發現了標籤錯誤或無法回答的例子。

由於上述問題,因而在進行這種簡單且標準化的評估時,有必要事先做出判斷和思考。本文表明,在使用MMLU 中遇到的挑戰通常也適用於其他類似的多項選擇評估。

BBQ

多項選擇評估還可以衡量一些AI 危害。具體而言,Anthropic 的研究者為了在自家模型Claude 中衡量這些危害,他們使用了BBQ 基準(用於評估模型對人群偏見的常用基準)。在將此基準與幾個類似的評估進行比較後,本文才確信BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。

本文表示,實施BBQ 比預期困難得多。首先是找不到一個可用的BBQ 開源實現,Anthropic 最好的工程師花了一個星期的時間來執行和測試評估。與MMLU 中以準確率評估不同,BBQ 中的bias 得分需要細微差別和經驗來定義、計算和解釋。

BBQ bias 得分範圍從– 1 到1,其中1 表示有明顯的刻板偏見,0 表示沒有偏見,-1 表示有明顯的反刻板偏見。在實現BBQ 之後,本文發現一些模型bias 得分為0,這一結果也讓研究者感到Optimism,顯示他們在減少有偏見的模型輸出方面取得了進展。

第三方評估框架

最近,第三方一直在積極開發評估套件。到目前為止,Anthropic 已經參與了其中的兩個計畫:BIG-bench 和史丹佛大學的HELM(Holistic Evaluation of Language Models)。儘管第三方評估看起來很有用,但這兩個項目都面臨新的挑戰。

BIG-bench

BIG-bench 包含204 項評估,由450 多名研究者合作完成,涵蓋從科學到社會推理的一系列主題。 Anthropic 表示他們在使用這個基準時遇到了一些挑戰:為了安裝BIG-bench,他們耗費了大量的時間。 BIG-bench 不像MMLU 那樣即插即用—— 它甚至比使用BBQ 更多的努力來實施。

BIG-bench 無法有效的擴展,想要全部完成204 項評估具有很大的挑戰性。因而需要重新編寫,以便與使用的基礎設施很好地配合,工作量龐大。

此外,在實施過程中,本文發現評估中存在一些bug,使用起來非常不便利,因此Anthropic 的研究人員在這次實驗後放棄了它。

HELM:由上而下地策劃一組評估

BIG-bench 是一項「自下而上」的工作,任何人都可以提交任何任務,然後由一組專家組織者進行有限的審查。而HELM 則採用「自上而下」的方法,由專家決定用什麼任務評估模型。

具體來說,HELM 在推理場景、含虛假資訊場景等多個場景中評估模型,採用準確度、穩健性、公平性等標準指標。 Anthropic 為HELM 開發人員提供API 存取權限,以便在其模型上執行基準測試。

相較於BIG-bench,HELM 有兩個優點:1)它不需要進行大量的工程工作,2)可以依靠專家來選擇和解釋特定的高品質評估。

然而,HELM 也帶來了一些挑戰。適用於評估其他模型的方法不一定適用於Anthropic 的模型,反之亦然。例如,Anthropic 的Claude 系列模型經過訓練,遵循特定的文字格式,稱為Human/Assistant 格式。 Anthropic 內部評估其模型時會遵循這種特定格式。如果不遵循這種格式,Claude 有時會給出不尋常的回答,從而使標準評估指標的結果不太可信。

此外,HELM 需要很長的時間才能完成,評估新模型可能需要幾個月的時間,並且需要與外部各方進行協調和溝通。

人工智慧系統是為了與人進行開放式動態互動而設計的,那麼如何對模型進行更接近現實應用的評估?

眾包人員進行A/B 測試

目前,領域內主要(但不完全)依賴一種基本類型的人類評估—— 在眾包平台上進行A/B 測試,人們在其中與兩個模型進行開放式對話,並從模型A 或B 中選擇回應更有幫助或更無害,根據模型的有用性或無害性對模型進行排名。這種評估方法的優點是與現實環境相對應,並允許對不同的模型進行排名。

然而,這種評估方法有一些局限性,實驗運行起來既昂貴又耗時。

首先,這種方法需要與第三方眾包平台合作並為其付費,為模型建立自訂Web 介面,為A/B 測試人員設計詳細的說明,還要分析和儲存結果數據,並解決僱用眾包人員帶來的道德挑戰。

在無害性測試情況下,實驗也存在使人們接觸有害輸出的風險。人類評估的結果可能還會因人類評估者的特徵而有很大差異,包括人類評估者的創造力水平、動機以及識別所測試系統潛在缺陷的能力。

此外,有用和無害之間存在固有的張力。系統可以透過提供無用的回應(例如“抱歉,我無法幫助你”)來降低有害性。

有用與無害之間的正確平衡是什麼?什麼指標數值顯示模型夠有用且無害?諸多問題需要領域內研究者做更多工作來找到答案。

了解更多內容,請參考原文章。

原文連結:https://www.anthropic.com/index/evaluating-ai-systems

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts