原文來源:機器之心
圖片來源:由無界AI生成
生成式AI 元年,大家的工作節奏快了一大截。
特別是,今年大家都在努力成交量大模型:最近國內外科技巨頭、新創公司都在輪番推出大模型,發表會一開,個個都是重大突破,每一家都是刷新了重要Benchmark 榜單,要嘛排第一,要嘛第一梯隊。
在興奮於技術進度速度之快後,許多人發現似乎也有些不對勁:為什麼排行榜上第一人有份?這是個什麼機制?
於是乎,「刷榜」這個問題也開始備受關注。
近日,我們關注到朋友圈和知乎社群對大模型「刷榜」這個議題的討論越來越多。特別是,知乎一篇文章:如何評價天工大模型技術報告中指出許多大模型用領域內資料刷榜的現象?引起了大家的討論。
連結:https://www.zhihu.com/question/628957425
多家大模型刷榜機制曝光
這項研究來自崑崙萬維的「天工」大模型研究團隊,他們上個月底把一份技術報告發佈在了預印版論文平台arXiv 上。
論文連結:https://arxiv.org/abs/2310.19341
論文本身是在介紹Skywork-13B,這是天工的大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓練方法,分別針對通用訓練和特定領域的增強訓練。
和往常有關大模型的新研究一樣,作者表示在流行的測試基準上,他們的模型不僅表現出色,而且在許多中文的分支任務上取得了state-of-art 水平(就是業內最佳)。
重點是,該報告還驗證了下許多大模型的真實效果,並指出了一些其他一些國產大模型存在投機取巧的嫌疑。說的就是這個表格8:
在這裡,作者為了驗證目前業界幾個常見大模型在數學應用問題基準GSM8K 上的過擬合程度,使用GPT-4 產生了一些與GSM8K 形式上相同的樣本,人工核對了正確性,並讓這些模型在產生的資料集,和GSM8K 原本的訓練集、測試集上比了比,計算了損失。然後還有兩個指標:
Δ1 作為模型訓練期間潛在測試資料外洩的指標,較低的值表示可能有洩漏。沒有用測試集訓練,那個數值應該是零。
Δ2 衡量資料集訓練分割的過度擬合程度。較高的Δ2 值表示過度擬合。如果沒有用訓練集訓練過,那數值應該是零。
用簡單的話來解釋就是:如果有模型在訓練的時候,直接拿基準測試裡面的「真題」和「答案」來當學習資料,想以此來刷分,那麼此處就會有異常。
好的,Δ1 和Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。
網友對此評論說,終於有人把「資料集污染」這個公開的秘密說出來了。
也有網友表示,大模型的智力水平,還是要看zero-shot 能力,現有的測驗基準都做不到。
圖:截圖自知乎網友評測
在作者與讀者互動中,作者也表示,希望「讓大家更理性看待刷榜這個事情,很多模型和GPT4 的差距還很大」。
圖:截圖自知乎文章https://zhuanlan.zhihu.com/p/664985891
數據污染問題值得重視
其實,這並不是一時的現象。自從有了Benchmark,這類問題時常會有發生,就像今年9 月份arXiv 上一篇極具嘲諷意味的文章標題指出的一樣Pretraining on the Test Set Is All You Need。
除此之外,最近人民大學、伊利諾大學香檳分校一個正式研究也指出了大模型評估中存在的問題。標題很紮眼《Don’t Make Your LLM an Evaluation Benchmark Cheater》:
論文連結:https://arxiv.org/abs/2311.01964
論文指出,目前火熱的大模型領域讓人們關心基準測試的排名,但其公平性和可靠性正在受到質疑。其中主要的問題是資料污染和洩露,這樣的問題可能會被無意識地觸發,因為我們在準備預訓練語料庫時可能不知道未來的評估資料集。例如,GPT-3 發現預訓練語料庫中包含了Children’s Book Test 資料集,LLaMA-2 的論文曾提到提取了BoolQ 資料中心化的上下文網頁內容。
資料集是需要很多人花費大量精力收集、整理和標註的,優質的資料集如果優秀到能被用於評測,那自然也有可能會被另一些人用於訓練大模型。
另一方面,在使用現有基準進行評估時,我們評測的大模型的結果大多是透過在本地伺服器上執行或透過API 呼叫來獲得的。在此過程中,沒有嚴格檢查任何可能導致評估績效異常增加的不當方式(例如資料污染)。
更糟的是,訓練語料庫的詳細組成(例如資料來源)通常被視為現有大模型的核心「秘密」。這就更難去探究資料污染的問題了。
也就是說,優秀數據的數量是有限的,在許多測試集上,GPT-4 和Llama-2 也不一定沒問題。例如在第一篇論文中提到的GSM8K,GPT-4 在官方technical report 裡提到使用了它的訓練集。
你不是說資料很重要嗎,那麼用「真題」刷分的大模型,效能會不會因為訓練資料更優秀而變得更好呢?答案是否定的。
研究人員實驗發現,基準洩漏會導致大模型跑出誇張的成績:例如1.3B 的模型可以在某些任務上超越10 倍體積的模型。但副作用是,如果我們只使用這些洩漏的資料來微調或訓練模型,這些專門應試的大模型在其他正常測試任務上的表現可能會受到不利影響。
因此作者建議,以後研究者在評論大模型,或研究新技術時應該:
使用更多來自不同來源的基準,涵蓋基本能力(例如文本生成)和高級能力(例如複雜推理),以全面評估LLM 的能力。在使用評估基準時,在預訓練資料和任何相關資料(例如訓練和測試集)之間執行資料淨化檢查非常重要。此外,還需要報告評估基準的污染分析結果作為參考。如有可能,建議公開預訓練資料的詳細組成。建議應採用多樣化的測試提示來減少提示敏感度的影響。在基準資料和現有預訓練語料庫之間進行污染分析,提醒任何潛在的污染風險也很有意義。為了進行評估,建議每次提交都附有一份特殊的污染分析報告。
最後想說,好在這個問題開始逐漸引起大家的關注,無論是技術報告、論文研究或社群討論,都開始重視大模型「刷榜」的問題了。
對此,你有什麼看法與有效建議?
參考內容:
https://www.zhihu.com/question/628957425
https://zhuanlan.zhihu.com/p/664985891
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載