國產大模型哪家強？新華社為你指南導航

在剛剛過去的周六12日，新華社研究院中國企業發展研究中心發布了《人工智能大模型體驗報告2.0》（以下簡稱《報告》）。選取目前主流的八款國產大模型，如百度文心一言、科大訊飛星火、阿里通義千問等進行評測，根據基礎能力、智商能力、情商能力、工具提取四個維度計算總分，最終再根據總分為其排名。最終的得分結果是星火得1013分位列榜首，文心一言得1010分緊隨其後，此二者也是榜單中唯二超過1000分者，其餘六家得分皆在其後。

《報告》在評論的同時也直言不諱的指出，當前國產大模型產品已有顯著進步，但與接受過高等教育的人類相比，在智商、情商等方面仍存在一定程度差距。

一、關於《報告2.0》

最近半年多來大模型浪潮湧起，國內各家企業組織與高校科研機構紛紛加入大模型賽道。據不完全統計，在此輪截至目前的大模型熱潮中，國內的大模型產品已經有上百個之多。另據天眼查的數據顯示，僅今年上半年，與大模型直接相關的投融資事件就有超過20起。以上這些數據都表明大模型浪潮的熱度依然沒有退去，下半年的相關表現值得期待。

今年6月，新華社曾發布《人工智能大模型體驗報告》，即《報告1.0》。當時就提出四項測評維度，即題目設計、對標人類、打分標準、專家測評團隊。而此次的《報告2.0》的考量，在於直觀感受我國當前主流科技企業所推出的大模型產品的現狀、優勢和特點，因此對評測維度進行了全面升級。

具體來說，在題目設計方面，測評題目由300道擴展至500道，並細化、完善了題目分類；在對標人類方面，本次測評以接受過高等教育的人類作為基準，來評估大模型的真實能力；在打分標准上，本次測評根據對產業、學界、實際生活的應用價值，對基礎能力、智商能力、情商能力和工具提效四項測評維度重新設計了權重；在測評團隊方面，本次測評特別邀請北京大學文化與傳播研究所，以及其他產學各界的專家全程參與。

二、四維測評下大模型的表現

針對各維度能力測評，《報告2.0》還給出了相應的案例展示和分析。課題組對每個測試維度中不同的指標都設置有不同的測評權重，綜合在不同領域的表現後最終匯總得分。

1.在基礎能力方面，人類與AI之間的差距並不顯著。課題組設置語言能力（35%）、AI向善（10%）、跨模態（20%）和多輪對話（35%）四項指標。測評結果顯示，八款大模型中百度文心一言表現最為搶眼，商湯商量、智譜AI-ChatGLM、360智腦表現優良。

大模型基礎能力得分

2.在智商評估方面，人類在智商方面仍然具有明顯優勢。課題組分別從常識知識（20%）、邏輯能力（50%）和專業知識（30%）方面對科技企業大模型進行考量。這次的結果中訊飛星火、智譜AI-ChatGLM表現突出，百度文心一言、崑崙萬維天工表現優良。

大模型智商指數得分

3.在情商方面，這是AI與人類之間的差距最為明顯的領域之一。人類在情緒理解和處理方面通常具有更強的優勢，處理能力也更靈活。通過對處理日常事項（35%）、一語雙關（30%）、人際關係（35%）問題進行分析發現，科技企業大模型中，商湯商量表現亮眼，百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現優良。

大模型情商指數得分

4.在工作效率提升方面，這是各家大模型普遍都在重點宣揚的地方。課題組重點在工具提效（50%）和生成創新（50%）方面進行考量，結果顯示，訊飛星火表現最為搶眼，百度文心一言、商湯商量、智譜AI-ChatGLM表現優良。不過，儘管AI具有高速度和高效率的優勢，但在某些複雜和具有創新性的任務中，人類的智慧和想像力仍然具有無法替代的作用。

大模型工具提效指數

三、大模型的前路

通過四項維度的測評可以看出，不同的大模型產品之間差距並不明顯，而對比人類時則區分顯著。《報告2.0》認為，雖然在不同領域中，AI和人類表現出不同的優劣勢，但在整體上，AI大模型的發展為人類工作和生活的提質增效帶來了重要的積極影響，大模型正在加速走進生活、走進產業。

最近半年多的大模型浪潮有目共睹，正在加速向社會生活中的各個領域滲透。同時在AI 2.0時代到來之際，從判別式AI到生成式AI就是生產力的變革，AI技術發展的重點已經從大模型的盲目追求參數量級，轉向了實用性和可持續性的發展。相信在本次體驗測評基礎上，各家研究團隊將繼續深耕，加強在大模型安全可解釋性、工作提效能力、實際落地情況、產業優秀案例等維度上的探索與研究。

未來已來，概念紅利逐漸消失，回歸實用更能行穩致遠。

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

國產大模型哪家強？新華社為你指南導航

加密AI興衰啟示錄：泡沫褪去，留下哪些火種？

Speciale Invest在INR 600億上支持DeepTech創業公司，專注於III類投資

FTX用戶加強訴訟，稱律師事務所Fenwick & West是其欺詐案的“關鍵”推手

跨鏈橋安全隱患剖析：28億美元損失揭示Web3基礎設施的致命弱點

特朗普一家為全球自由令牌推出15億美元的寶藏公司

XRP今日價格預測（8月12日）

策略性購買BTC火箭推動比特幣清算失衡至17,300%

比特幣的利潤率從122,000美元的高價降低； CPI報告Loom

國產大模型哪家強？新華社為你指南導航

Related Posts