在剛剛過去的周六12日,新華社研究院中國企業發展研究中心發布了《人工智能大模型體驗報告2.0》(以下簡稱《報告》)。選取目前主流的八款國產大模型,如百度文心一言、科大訊飛星火、阿里通義千問等進行評測,根據基礎能力、智商能力、情商能力、工具提取四個維度計算總分,最終再根據總分為其排名。最終的得分結果是星火得1013分位列榜首,文心一言得1010分緊隨其後,此二者也是榜單中唯二超過1000分者,其餘六家得分皆在其後。
《報告》在評論的同時也直言不諱的指出,當前國產大模型產品已有顯著進步,但與接受過高等教育的人類相比,在智商、情商等方面仍存在一定程度差距。
一、關於《報告2.0》
最近半年多來大模型浪潮湧起,國內各家企業組織與高校科研機構紛紛加入大模型賽道。據不完全統計,在此輪截至目前的大模型熱潮中,國內的大模型產品已經有上百個之多。另據天眼查的數據顯示,僅今年上半年,與大模型直接相關的投融資事件就有超過20起。以上這些數據都表明大模型浪潮的熱度依然沒有退去,下半年的相關表現值得期待。
今年6月,新華社曾發布《人工智能大模型體驗報告》,即《報告1.0》。當時就提出四項測評維度,即題目設計、對標人類、打分標準、專家測評團隊。而此次的《報告2.0》的考量,在於直觀感受我國當前主流科技企業所推出的大模型產品的現狀、優勢和特點,因此對評測維度進行了全面升級。
具體來說,在題目設計方面,測評題目由300道擴展至500道,並細化、完善了題目分類;在對標人類方面,本次測評以接受過高等教育的人類作為基準,來評估大模型的真實能力;在打分標准上,本次測評根據對產業、學界、實際生活的應用價值,對基礎能力、智商能力、情商能力和工具提效四項測評維度重新設計了權重;在測評團隊方面,本次測評特別邀請北京大學文化與傳播研究所,以及其他產學各界的專家全程參與。
二、四維測評下大模型的表現
針對各維度能力測評,《報告2.0》還給出了相應的案例展示和分析。課題組對每個測試維度中不同的指標都設置有不同的測評權重,綜合在不同領域的表現後最終匯總得分。
1.在基礎能力方面,人類與AI之間的差距並不顯著。課題組設置語言能力(35%)、AI向善(10%)、跨模態(20%)和多輪對話(35%)四項指標。測評結果顯示,八款大模型中百度文心一言表現最為搶眼,商湯商量、智譜AI-ChatGLM、360智腦表現優良。
大模型基礎能力得分
2.在智商評估方面,人類在智商方面仍然具有明顯優勢。課題組分別從常識知識(20%)、邏輯能力(50%)和專業知識(30%)方面對科技企業大模型進行考量。這次的結果中訊飛星火、智譜AI-ChatGLM表現突出,百度文心一言、崑崙萬維天工表現優良。
大模型智商指數得分
3.在情商方面,這是AI與人類之間的差距最為明顯的領域之一。人類在情緒理解和處理方面通常具有更強的優勢,處理能力也更靈活。通過對處理日常事項(35%)、一語雙關(30%)、人際關係(35%)問題進行分析發現,科技企業大模型中,商湯商量表現亮眼,百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現優良。
大模型情商指數得分
4.在工作效率提升方面,這是各家大模型普遍都在重點宣揚的地方。課題組重點在工具提效(50%)和生成創新(50%)方面進行考量,結果顯示,訊飛星火表現最為搶眼,百度文心一言、商湯商量、智譜AI-ChatGLM表現優良。不過,儘管AI具有高速度和高效率的優勢,但在某些複雜和具有創新性的任務中,人類的智慧和想像力仍然具有無法替代的作用。
大模型工具提效指數
三、大模型的前路
通過四項維度的測評可以看出,不同的大模型產品之間差距並不明顯,而對比人類時則區分顯著。 《報告2.0》認為,雖然在不同領域中,AI和人類表現出不同的優劣勢,但在整體上,AI大模型的發展為人類工作和生活的提質增效帶來了重要的積極影響,大模型正在加速走進生活、走進產業。
最近半年多的大模型浪潮有目共睹,正在加速向社會生活中的各個領域滲透。同時在AI 2.0時代到來之際,從判別式AI到生成式AI就是生產力的變革,AI技術發展的重點已經從大模型的盲目追求參數量級,轉向了實用性和可持續性的發展。相信在本次體驗測評基礎上,各家研究團隊將繼續深耕,加強在大模型安全可解釋性、工作提效能力、實際落地情況、產業優秀案例等維度上的探索與研究。
未來已來,概念紅利逐漸消失,回歸實用更能行穩致遠。
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載