FlagEval 大語言模式評測9 月榜：Baichuan 2 排名第一

根據TechWeb 9 月19 日報道，國內權威評測體系FlagEval（天秤）公佈最新9 月榜單大模型評測結果。基於最新CLCC v2.0 主觀評測資料集，FlagEval（天秤）9 月榜重點評測了近期大熱門的7 個開源對話模式。從整體結果來看，Baichuan2-13 b-chat、Qwen-7 b-chat、Baichuan2-7 b-chat 名列前茅，準確率都超過65%。在基座模型榜單中，Baichuan 2、Qwen、InternLM、Aquila 的客觀評測結果表現都超越同參數量級的Llama 及Llama2 模式。在SFT 模型名單中，Baichuan 2-13 B-chat、YuLan-Chat-2-13 B、AquilaChat-7 B 名列前三名。在客觀評測兩個榜單中，Baichuan 2 均表現出優異性能，基礎模型測試在中英文領域均全面超越Llama 2。據悉，FlagEval（天秤）是北京智源人工智慧研究院推出的大模型評測體系及開放平台，旨在建立科學、公正、開放的評測基準、方法、工具集，協助研究人員全方位評估基礎模型及訓練算法的性能。 FlagEval 大語言模式評測系統目前包含6 大評測任務，近30 個評測資料集，超10 萬道評測題目。

FlagEval 大語言模式評測9 月榜：Baichuan 2 排名第一

扎克伯格計劃再次重組Meta的人工智能業務

現在XRP錢包94%被出售，但這或許會有所不同的原因在於此

失去上漲趨勢後，比特幣攤位超過$112,000

索拉納新聞：Solana 達到100,000 TP

《社交網絡》中的不幸雙子兄弟，成功炒幣與上市

以太坊：華爾街與人工智能交彙的中心地帶

Unilabs Fund提升Litecoin開採，Cardano價格趨勢看跌，5000萬美元出售牆

首位發言人參加邁阿密Blockchain Futurist Conference，這是美國下一個重要的Web3活動

FlagEval 大語言模式評測9 月榜：Baichuan 2 排名第一

Related Posts