根據TechWeb 9 月19 日報道,國內權威評測體系FlagEval(天秤)公佈最新9 月榜單大模型評測結果。基於最新CLCC v2.0 主觀評測資料集,FlagEval(天秤)9 月榜重點評測了近期大熱門的7 個開源對話模式。從整體結果來看,Baichuan2-13 b-chat、Qwen-7 b-chat、Baichuan2-7 b-chat 名列前茅,準確率都超過65%。在基座模型榜單中,Baichuan 2、Qwen、InternLM、Aquila 的客觀評測結果表現都超越同參數量級的Llama 及Llama2 模式。在SFT 模型名單中,Baichuan 2-13 B-chat、YuLan-Chat-2-13 B、AquilaChat-7 B 名列前三名。在客觀評測兩個榜單中,Baichuan 2 均表現出優異性能,基礎模型測試在中英文領域均全面超越Llama 2。據悉,FlagEval(天秤)是北京智源人工智慧研究院推出的大模型評測體系及開放平台,旨在建立科學、公正、開放的評測基準、方法、工具集,協助研究人員全方位評估基礎模型及訓練算法的性能。 FlagEval 大語言模式評測系統目前包含6 大評測任務,近30 個評測資料集,超10 萬道評測題目。