清華大學發布大模型綜合性能評估報告:文心一言排名第二,通義千問排名第六

據公眾號“清元宇宙”,清華大學瀋陽教授團隊近日發布了《大語言模型綜合性能評估報告》,報告從生成質量、使用與性能、安全與合規三個維度對大語言模型進行評估,並深入分析不同大語言模型之間的優劣。該報告總共對文心一言、訊飛星火、通義千問、崑崙天工、GPT-4、ChatGPT 3.5 和Claude 七個大語音模型進行了評估分析。據綜合性能評估結果顯示,GPT-4 排名第一,文心一言和ChatGPT 3.5 分別排名第二三位,阿里云通義千問則排在第六位。此外,報告還針對大語言模型未來發展提出了強化跨語言遷移學習、擴大訓練數據的範圍、加強利用人工數據、推進敏感和有害信息的精準化過濾、理解社會影響和倫理限制等建議。

Total
0
Shares
Related Posts