文章來源:AI先鋒官
圖片來源:由無界AI生成
自ChatGPT問世以來,全球掀起了大模型的「軍備競賽」。據報道,今年1-7月國內共發布了64個大模型。截至2023年7月,中國累計有130個大模型問世。
「百模大戰」都不足以形容如今的焦灼“戰況”,那麼究竟哪家大模型更勝一籌呢?這就離不開大模型的評測。
然而,現階段並不存在一個公認有效的評測方式,這就導致國內外的大模型評測領域出現「榜單大戰」。不完全統計,目前市面上的評測工具(系統)不下50個,同類榜單的結果卻可以千差萬別。大眾對「刷分」的質疑更是不絕於耳。
業界一般認為,評估一款大模型有兩個顯化標準:一是參數量,二是評測集。
所謂參數量,是指模型中可學習的參數數量,包括模型的權重和偏移。參數量的大小決定了模型的複雜程度,更多的參數和層數,是大模型區別於小模型的標誌性特徵。 2022年,美國一批大模型亮相,從Stability AI發布由文字到圖像的生成式模型Diffusion,再到OpenAI推出的ChatGPT,模型參數規模開始進入百億、千億級時代。
從表面指標看,千億參數的模型普遍比百億級表現更好。不過這也不絕對,堆參數也未必就能提升能力。那麼,同樣參數等級的模型該如何分辨優劣呢?這就需要引入大模型的第二個評測維度——評測集。
評測集是為有效評估基礎模型及其微調演算法在不同場景、不同任務上的綜合效果,所建構的單任務或多任務的統一基準資料集,有公開和封閉兩種形態。
這些評測集就像是針對不同領域的考成交量,透過測試大模型在這些「考成交量」中的得分,人們可以更直觀地比較大模型的表現高低。
在小模型時代,大多數模型機構都會使用學術類評測集效果來作為評判模型好壞的依據。現在,大模型廠商也開始更主動地參與到學術界基準測試框架中來,視其為權威背書與行銷依據。
市面上已出現不少大模型的評測集,例如國際上用的較多的大模型評測集MMLU、中文評估模型C-Eval、SuperCLUE等。
-1- 評測工具
MMLU
全名為Massive Multitask Language Understanding,是針對大模型的語言理解能力的測評,是目前最著名的大模型語意理解測評之一,由UC Berkeley大學的研究人員在2020年9月推出。測驗涵蓋57項任務,包括初等數學、美國歷史、電腦科學、法律等。任務涵蓋的知識很廣泛,語言是英文,用以評測大模型基本的知識涵蓋範圍和理解能力。
論文地址:
https://arxiv.org/abs/2009.03300
官方網站:
https://paperswithcode.com/dataset/mmlu
大模型排行榜:
https://paperswithcode.com/sota/multi-task-anguage-understanding-on-mmlu
C-Eval
C-Eval 是一個全面的中文基礎模型評估套件。由上海交通大學、清華大學和愛丁堡大學研究人員在2023年5月份聯合推出,它包含了13948個多項選擇題,涵蓋了52個不同的學科和四個難度級別,用以評測大模型中文理解能力。
論文地址:
https://arxiv.org/abs/2305.08322
項目地址:
https://github.com/SJTU-LIT/ceval
官方網站:
https://cevalbenchmark.com/
SuperCLUE
中文一般大模型綜合性評測基準,從三個不同的構面評估模型的能力:基礎能力、專業能力和中文特性能力。
其中基礎能力能力包括: 語意理解、對話、邏輯推理、角色模擬、程式碼、生成與創作等10項能力。
專業能力包括: 包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力。
中文特性能力: 針對有中文特色的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。
項目地址:
https://github.com/CLUEbenchmark/SuperCLUE
官方網站:
https://www.cluebenchmarks.com/
SuperCLUE瑯琺榜
中文通用大模型匿名對戰評價基準,與ChatbotArena相同以眾包方式讓不同的大模型產品進行匿名、隨機的對抗測評,結果基於Elo評級系統。
項目地址:
https://github.com/CLUEbenchmark/SuperCLUElyb
Chatbot Arena
ChatbotArena是一個大型語言模型(LLM) 的基準平台,該專案方LMSYS Org是由加州大學柏克萊分校、加州大學聖地牙哥分校和卡內基美隆大學合作創立的研究組織。
以眾包方式進行匿名隨機對戰的LLM基準平台。透過demo體驗地址進入對戰平台。輸入自己感興趣的問題,提交問題後,匿名模型會兩兩對戰,分別產生相關答案,需要用戶對答案做出評判,從4個評判選項中選擇一個:模型A更好、模型B更好、平手、都很差。支援多輪對話。最終使用Elo評分系統對大模型的能力進行綜合評估。 (可以自行指定模型看效果,但不計入最終排名情況)。
項目地址:
https://github.com/lm-sys/FastChat
官方網站:
https://chat.lmsys.org/
FlagEval
FlagEval(天秤)由智源研究院將聯合多個高校團隊打造,是一種採用「能力—任務—指標」三維評測框架的大模型評測平台,旨在提供全面、細緻的評測結果。本平台已提供了30 多種能力、5 種任務和4 大類指標,共600 多個維度的全面評測,任務維度包括22 個主客觀評測資料集和84433 題目。
FlagEval(天秤)第一期已推出大語言模型評測系統、開源多語言文圖大模型評測工具mCLIP-Eval 和開源文圖生成評測工具ImageEval。天秤平台也將持續探討語言大模式評測與心理學、教育學、倫理學等社會學科的交叉研究,以期更科學、全面地評估語言大模式。 FlagEval 針對大模型開發者和使用者,旨在幫助各個開發團隊了解自身模型的薄弱之處,並推動技術創新。
項目地址:
https://github.com/FlagOpen/FlagEval
官方網站:
https://flageval.baai.ac.cn/
OpenCompass
2023年8月,上海人工智慧實驗室(上海AI實驗室)正式推出OpenCompass大模式開放評測體系,透過完整開源可複現的評測框架,支援大語言模式、多模態模式各類模式的一站式評測,並定期公佈評測結果名單。
官方網站:
https://opencompass.org.cn/
項目地址:
https://github.com/open-compass/opencompass
JioNLP
檢視LLM 模型對人類使用者的幫助效果、輔助能力,可否達到一個「智能助手」的水平題型,選擇題來自中國大陸國內各種專業性考試,重點在於考察模型對客觀知識的覆蓋面,佔比32%;主觀題來自日常總結,主要檢視使用者對LLM 常用功能的效果。
項目地址:
https://github.com/dongrixinyu/JioNLP/wiki/LLI評測資料集
清華安全大模式測評
清華收集的一個評測集,涵蓋了仇恨言論、偏見歧視言論、犯罪違法、隱私、倫理道德等八大類別,包括細粒度劃分的40餘個二級安全類別。
網址:http://115.182.62.166:18000
LLMEval-3
由復旦大學NLP實驗室推出,聚焦於專業知識能力評測,涵蓋哲學、經濟、法學、教育學、文學、歷史學、理學、工學、農學、醫學、軍事學、管理學、藝術學等教育部劃定的13個學科門類、50餘個二級學科,共約20W道標準生成式問答題目。為了防止刷榜現象的發生,LLMEval-3評測採用了一種新穎的評測模式,即「題庫考試」模式。
網址:http://llmeval.com/
GAOKAO-Bench
GAOKAO-bench是一個以中國高考題目為資料集,測評大模型語言理解能力、邏輯推理能力的測評架構。
項目地址:
https://github.com/OpenLMLab/GAOKAO-Bench
PandaLM
其直接訓練了一個自動化評分模型,0.1.2三分制用模型對兩個候選模型進行評分。
項目地址:
https://github.com/We0penML/PandaLM
BIG-bench
google推出的評測集,BIG-bench由204 項任務組成,任務主題涉及語言學、兒童發展、數學、常識推理、生物學物理學、社會偏見、軟體開發等等領域的問題。
項目地址:
https://github.com/google/BIG-bench
MMCU
甲骨易AI研究院提出一種衡量中文大模型處理多任務準確度的測驗, 資料集的測驗內容涵蓋四大領域:醫療、法律、心理學和教育。題目的數達到1萬+,其中包括醫療領域2819題,法律領域3695題,心理學領域2001道,教育領域3331道。
項目地址:
https://github.com/Felixgithub2017/MMCU
AGI Eval
微軟發布的大模型基礎能力評測基準,在2023年4月推出,主要評測大模型在人類認知和解決問題的一般能力,涵蓋全球20種面向普通人類考生的官方、公共和高標準錄取和資格考試,包含中英文數據。因此,該測試更傾向於人類考試結果,涵蓋了中英文。
論文地址:
https://arxiv.org/abs/2304.06364
GSM8K
OpenAI發布的大模型數學推理能力評測基準,涵蓋了8500個中學程度的高品質數學題資料集。資料集比之前的數學文字題資料集規模更大,語言更具多樣性,題目也更具挑戰性。這項測試在2021年10月發布,至今仍是非常困難的一種測試基準。
論文地址:
https://arxiv.org/abs/2110.14168
HELM
HELM評測方法主要包括場景、適應、指標三個模組,每次評測的運行都需要指定一個場景,一個適配模型的提示,以及一個或多個指標。它評測主要涵蓋的是英語,有7個指標,包括準確率、不確定性/校準、穩健性、公平性、偏差、毒性、推斷效率;任務包括問答、資訊檢索、摘要、文本分類等。
論文地址:
https://arxiv.org/pdf/2211.09110.pdf
項目地址:
https://github.com/stanford-crfm/helm
Chinese-LLalA-Alpaca
它的評分就是相對值,優先使用gpt4,部分使用chatgpt3。
項目地址:
https://github.com/ymcui/Chinese-LLalA-Alpaca/tree/main
MT-bench
評估大模型的多輪對話和指示追隨能力。資料集包括80個(8category*10question)高品質且多輪對話的問題,每個問題由6個知名大模型( GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, and LLaMA-13B)回答,人工排序得到3.3K pair對。
論文地址:
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
github
項目地址:
https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge
資料下載位址:
https://huggingface.co/datasets/lmsys/mt_bench_human_judgments
-2- 評測模式
透過上述評測工具發現,目前常見的大模型評測模式可以大致總結為四種:
1.做題打分。主要是收集各種各樣的評測資料集,然後把資料集分成不同的維度能力。透過設計一些prompt讓大模型去做這些資料集的任務,與標準答案進行對照計算分數。典型的如OpenCompass,huggingface的openLLM leaderboard等。
2.讓GPT-4當裁判。收集評測用的資料集(一些不是公開開源的、不帶標準答案的資料集也會包含在內),然後讓GPT-4給大模型的生成結果進行評判。此評判過程又有兩種打分方式,一是直接評分,一是設計一些維度,例如事實性、準確性、安全合規性等,然後更細緻地進行評測。
3.競技場模式。類似競技遊戲裡面的競技場。每次拉兩個大模型選手PK,由使用者(有時候也會用GPT-4)來評測哪個模型比較好,贏的大模型有加分,輸的大模型有減分。當執行了足夠多的PK輪次後,就會有一個大模型的得分排行榜,這個榜單相對來說還是比較公正的,能夠較為客觀得體現模型的能力強弱。典型的例子如UC柏克萊發布的Chatbot Arena Leaderboard。
4.針對單項能力的評測。例如針對數學能力、程式碼能力、推理能力等,評測這些能力既可以判斷一個大模型是否真的具備類似人類的思考能力,其評測結果也能夠直接幫助在特定領域場合中選擇大模型(例如代碼助手)。
-3- 評價結果“天差地別”
評測工具五花八門,不同評測工具的評估結果也「天差地別」。
8月15日,一家機構的人工智慧大模型體驗報告發布,對國內主流大模型進行使用體驗的橫向評估。該榜單以500題目評測了國內8款主流AI大模型,最終訊飛星火排名第一,百度文心一言排名第二,阿里通義千問排在倒數第二。
9月,學術界當紅開源評測榜C-Eval最新一期排行榜中,雲天勵飛的大模式「雲天書」排在第一,而GPT-4僅名列第十。
同月,SuperCLUE發布了大模型9月榜單。總榜上GPT-4排名第一,而商湯科技的SenseChat3.0拿下中文排行榜首位。
10月19日,史丹佛大學發布了2023基礎模型透明指數,對10個主流基礎模型進行了透明度評級,Llama 2排名第一、GPT-4排名第三。
為什麼各大評測工具的評量結果截然不同呢?究其原因,主要有以下幾點:
1.每個流行學術評測集都有自己的重點。例如Meta最常選用的GSM8K和MMLU,是不同程度的考試集——前者是小學數學,後者則是更高階的多學科問答。就像一班的學生參加不同學科的考試,大模型們在不同榜單上自然排名不同。
2.主觀題在大模型評測中比例上漲。在現行海內外大模式評測榜單中,主觀題與客觀題結合的思維普遍被業界認可。但主觀題的挑戰在於,每個人心中的評價標準是否一致。而「人類團隊評分」必然會觸及題目數量的天花板,而對於大模型評測而言,題量越大得出的結論則越有效。
3.專用模型與通用大模型之間在垂直領域的同台競技導致排名失真。在實際落地場景中,製造業、醫療、金融等產業內企業客戶在接入大模型能力時都需要根據自身資料庫做二次微調。這也意味著,原版通用大模型直接參與垂直領域問答所得出的結果,並不能夠代表大模型產品在垂直領域的真實表現。
4.開源測試集引發的「刷榜」現象。不少新晉大模型之所以能在開源測試集榜單上的排名超越GPT-4,一些原因是因為涉嫌「刷題」。例如C-Eval目前隻公開了題目但沒有公開答案,參與測試的大模型廠商要么找數據標註員把題目做一遍,要么用GPT-4把題做一遍,再把答案扣下來訓練大模型,這樣都能在對應學科測驗中獲得滿分。
閉源評測集就能規避「刷榜」嗎?不然,如果閉源評測集不進行更新換題,參與評測的模型可以從後台拉出歷史記錄進行“作弊”,重做被測試過的問題。這等同於「虛假閉源」。
針對上述問題,業界也正在探索相應的解決方案。
例如,對於大模型評測主觀題評價標準難以一致,以及「人類團隊評分」觸及題目數量天花板的問題,業界開始採用「人類+GPT4評分」的模式。國內如SuperCLUE會選擇將GPT4視為“評成交量老師”,讓其加入人類團隊輔助評分。
再如“刷榜”問題,業內人士認為,“評測集應該是封閉的,避免被作弊,但一個好的大模型評測應該是過程公開的評測,方便大家對評測做監督。”
也有人認為,將大模型評測過程公開是很好的願景,但考慮到評測的公平公正性,還是應有大量的封閉評測集,「閉成交量考試」才能真正的評價出模型的能力。
另外還有防刷分的大模型評測,例如復旦大學NLP實驗室推出LLMEval-3採用了一種新穎的評測模式,即「題庫考試」模式。在LLMEval-3中,每個參與評測的系統都需要完成從總題庫中隨機抽樣的1000題,針對同一機構的模型,確保每次評測題目不重複。評測過程將採用線上方式,一輪評測中題目的發送串列進行,即下一題的發送將會視上一道題目的回答情況而定,避免惡意爬取行為。
由於大模型涉及的領域和應用非常廣泛,不同領域、不同應用的大模型需要關注的指標和評估方法不盡相同。因此,針對特定應用領域和需求,不同機構和組織可能會提出不同的評估標準和方法。 “儘管沒有統一的標準,但評估的意義在於提供了一種評估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型。”
如何做出真正綜合全面的大模型評測,學界和產業界最前線也「一頭霧水」。即便如此,權威機構更應加強研究,盡快形成共識,促進技術進步和產業發展。
資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載