SuperCLUE 發表中文大模型基準評測2023 年度報告:國內外差距仍明顯

根據北京商報報道,12 月28 日,國內中文模型評測機構SuperCLUE 發布中文大模型基準測評2023 年度報告。根據報告,過去半年,國內領軍大模型企業實現了大模型代際追趕的奇蹟,從7 月份與GPT3.5 的20 分差距,每個月都有穩定且巨大的提升,到11 月份測評時已經完成總分上對GPT3.5 的超越。據介紹,本次測評數據選取了SuperCLUE-12 月評測結果,模型選取了國內外有代表性的26 個大模型在12 月的版本。測評結果顯示,國內外差距仍明顯。 GPT4-Turbo 總分90.63 分遙遙領先,高於其他國內大模型及國外大模型。其中國內最佳模型文心一言4.0 (API)總分79.02 分,距離GPT4-Turbo 有11.61 分,距離GPT4(網頁)有4.9 分的差距。但過去1 年國內大模型已經有了長足的進步。綜合能力超過GPT3.5 和Gemini-Pro 的模型有11 個,例如百度的文心一言4.0、阿里雲的通義千問2.0 和Qwen-72B-Chat、OPPO 的AndesGPT、清華& 智譜AI 的智譜清言、位元組跳動的雲雀大模型等都有較好的表現。另外國內開源模型在中文上表現優於國外開源模型,如百川智能的Baichuan2-13B-Chat、阿里雲的Qwen-72B、Yi-34B-Chat 都優於Llama2-13B-Chat。

Total
0
Shares
Related Posts