天津大學發布《大模型評測報告》,GPT-4 和百度文心一言排名領先

8 月12 日,天津大學和信創海河實驗室舉辦“大模型技術與評測研討會”,會上天津大學發布首份《大模型評測報告》,對國內外主流的14 個大語言模型進行中文綜合能力評測,結果顯示,GPT-4 和百度文心一言相較於其他模型綜合性能顯著領先,兩者得分相差不大,處於同一水平。據了解,參與本次評測的大模型包括GPT-4、ChatGPT gpt-3.5-turbo、Claude-instant、Sage gpt-3.5-turbo 等國外大模型,以及百度文心一言、阿里通義千問、訊飛星火認知大模型、ChatGLM-6B、360 智腦、MOSS-16B、MiniMax、baichuan-7B 等國產大模型。評測使用一套涵蓋知識問答、語言表達、邏輯推理、常識問答、文本問答、機器翻譯等不同領域知識、包含多種題型的中文綜合性試題,通過多維度得分結果,清楚了解不同模型的擅長領域和綜合能力優劣。

Total
0
Shares
Related Posts