星火3.0 VS GPT3.5,百「模」爭流時代來臨


原文來源:多鯨

圖片來源:由無界AI生成

近日,在第六屆世界聲博會暨2023科大訊飛全球1024開發者節上,科大訊飛董事長劉慶峰宣布,星火認知大模型V3.0正式發布,全面對標GPT3.5。此外,星火V3.0亦升級了啟發式對話、AI人設等功能,進而為使用者提供更個人化的AI助理。

每逢各大公司大模型有「大動作」的時候,ChatGPT總是被「拉出來溜一圈」。那麼,教育作為大模型落地「最通順的」場景之一,星火認知大模型V3.0在這一方面可以和GPT3.5較量一下手腕嗎?筆者選取了2022年普通高等學校招生全國統一考試(甲成交量)語文題目,探了探兩者的中文程度。同時,從教師端的角度出發,想要成為老師的「個人化AI助理」,也需要一定的教學設計能力。

想要在中文程度進行評量,一套高考成交量子可能是不錯的試金石。在GPT-3.5問世之初,既有人透過不同學科的成交量子來測試其水平,表現不俗,今日不妨再透過高考成交量來比一比大模型在中文方面的資料庫、邏輯推理和寫作能力。

(1)文化常識

《詩經·衛風·拉維》中男女主角有過偷悅的往昔,「_______________,_______________」,就是對他們小時候歡樂相處的描寫。

「雖九死尤未悔」?似乎不太對勁。這題,訊飛星火直接給了正確的答案。

(2)古文閱讀

古文節選自《戰國策·秦策二》

請對這一段長句進行斷句,並用現代文解釋意思。

不榖不煩一兵不傷一人而得商於之地六百里寡人自以為智矣諸士大夫皆賀子獨不賀何也

正確答案為:B. 不榖不煩一兵/不傷一人/而得商於之地六百里/寡人自以為智矣/諾士大夫皆賀/子獨不賀/何也。

訊飛星火成功斷句3處,而GPT-3.5則僅成功1處。而且在「子獨不賀」的翻譯上,儘管沒有上下文的語境,訊飛星火能夠精準切分謂語和賓語的位置,實現了整句成功的翻譯。

(3)作文寫作

題目要求:

《紅樓夢》寫到「大觀園考才題對額」時有一個情節,為元妃(賈元春)省親修建的大觀園竣工後,眾人給園中橋上亭子的匾額題名。有人主張從歐陽修《醉翁亭記》「有亭翼然」一句中,取「翼然」二字;賈政認為「此亭壓水而成」,題名「還須偏於水」,主張從「瀉出於兩峰之間」中拈出一個「瀉」字,有人即附和題為「瀉玉」;賈寶玉則覺得用「沁芳」更為新雅,賈政點頭默許。 「沁芳」二字,點出了花木映水的佳境,不落俗套;也契合元妃省親之事,蘊藉含蓄,思慮周全。

以上資料中,眾人給予匾額題名,或直接移用,或借鏡化用,或根據情境獨創,產生了不同的藝術效果。這個現像也能在更廣大的領域給人啟示,引發深入思考。請你結合自己的學習和生活經驗,寫一篇文章。

這是一篇高考作文題,需要結合題意對於文章內容進一步擴展,請撰寫一篇800字左右的作文。

初看,兩篇文章作為高考作文題目皆有一個通病。作文並非材料分析題,兩篇文章於開頭都大篇幅地對於材料內容進行了一通解析,在文章結構和寫作策略上都不是上策。

接著看文章邏輯,這點兩個大模型的能看出「從借鑒到創新」的遞進意味,然而,「借鏡和創新」的關係卻涇渭分明。在星火大模型這裡,「借鑒與創新並非孤立存在,而是相互促進、相互融合的」,而GPT確認為「借鑒和獨創需要平衡博弈」。顯然,考場經驗告訴我們,前者更得閱成交量老師青睞,而後者想要立論,恐怕就劍走偏鋒了。

再看素材使用,與考場作文相比,兩篇文章的素材使用的廣度和深度都顯得不夠充分,然而。比起GPT純粹的說理,星火引用了兩篇古詩詞,險勝一招。

最後看主題昇華,如果說訊飛星火的作文能夠從藝術創作的角度延宕開來,則「借鑒與創新的融合」,絕對將「精準狙擊」文章的核心主題,可惜的是,通篇都在談藝術創作。在這一點上,GPT的作文從學習生活談到創業、市場、教育政策,顯得更磅礴大氣。

總而言之,這篇作文的撰寫,兩家大模型各有優劣,但是都未能到達「優秀」的水平。

透過不同身分的認定,大模型既能是「答題者」,也能是「出題人」。這也意味著,大模型多元的綜合能力,為打造老師個人化AI教學助理提供了有利的支撐。

而其中最關鍵的步驟之一,就是對於教學整體流程的把控能力。為此,筆者向兩個大模型提出了語文、數學以及物理學科的教案設計要求,幾次嘗試後發現兩者差別不大,流程設計完整而略微欠缺與實際課文相結合的部分。比較之下,選擇了生物中的人類免疫系統教學將兩者進行比對。

有趣的是,星火大模型提出了一個具體的實驗設計,相比較GPT的回答,其考慮了生物學科的實操性的特徵。不過,在筆者記憶中,高中課本上並為出現過類似的實驗。依照經驗,細菌繁殖要形成肉眼可見的菌落,至少要等到幾小時的時間。這個實驗設計固然是想讓人明確感受到藥劑的影響,但顯然不符合常理。這也可見,大模型的回答也會有「幻覺」。

相較之下,GPT的價格設計更「上價值」,除了對於價格本身的介紹之外,還引導同學思考了疫苗與人類社會的關係,在內容上更加完整。

比完教案設計,內容課件也是令老師們頭痛的一點。由於GPT3.5只能生成文本,這一題就交由星火大模型來完成。

從目錄頁來看,人體免疫系統的幾個知識點羅列地較為清晰明確了。課件中,對於知識點的呈列以及重點突出也一定程度上比較清晰。不過,在「自然殺手細胞與抗病毒功能」一頁,文本出現了一些擾亂的文字,前後的知識點也呈現了一定程度的重複與冗餘。在展示配圖上,「圖文內容無關」的問題卻很明顯,各種畫風、各種主題和各種職業都出現在了插圖中,而沒有生物課本上的範例圖。

當然,由於教學課本和課程設定都有其標準,當選擇其他主體時,矛盾和問題就不會顯得這麼尖銳。例如寫一個對於某種水果或動物的介紹,那種違和感就稍微減淡了一些。不過,其中的問題,也投射出對於未來AI教育輔助工具的期待。恐怕現下,如果有老師需要製作課件PPT,AI不會是首選。

無獨有偶,在不久前的百度世界大會2023上,百度正式官員公佈了文心一言4.0版本。百度創辦人、董事長兼執行長李彥宏表示:這是迄今為止最強大的文心大模型,能實現基礎模型的全面升級,在理解、生成、邏輯和記憶能力上都有顯著提升。用李彥宏的話來講,文心大模型4.0的綜合水準與GPT4相比,已經毫不遜色。

百度大會十日不到,星火認知大模型V3.0正式發布,全面對標GPT3.5。

今天早些時候,DoNews公眾號發文《劍指GPT-4,百度文心4.0究竟有多強? 》,透過業界普遍使用的語言理解、推理、生成、記憶四個維度的考察以及國家公務員考試《行測》真題,測評文心大模型4.0與目前仍免費的GPT-3.5在中文領域的實際水平。根據評估結果來看,文心大模型4.0整體水準優於GPT-3.5,尤其在理解和生成兩方面,表現令人驚訝。

而筆者幾個問題比較下來,確實可以看到在中文輸出方面星火認知大模型V3.0的準確率更高,整體表現佔上風。當然,評量問題有限,綜合判定還需要更多比較。

自今年三月以來,每有一個大模型發布,ChatGPT都會被「拉出來溜一圈」,從各種維度來進行比較。但回到其模式的本質,對話始終是大模型使用者的核心訴求之一。關於這一點,教育與大模型的適配度,已經是公認的契合,因此這半年多來,大模型與教育結合落地的動作不少,包括搭載大模型的智能硬體設備、接入大模型的線上學習平台等,也有諸如學而思研發的數學大模型。

一方面,教育公平化、惠普化逐漸推進,學習個人化需求上漲,科技正是解決這些痛點的良藥;另一方面,教育產業資本創投沉寂已久,AI+教育承載了太多期待。

盛名之下,也引發了一些憂慮。

自從今年初chatGPT面世以來,國內外各廠商的百模大戰就拉開了序幕。相關數據顯示,截至10月23日,國內大模型數量已達130個,已超越美國的114個,位居全球之冠。 「百模大戰」已不再是種誇張的修辭,而是客觀現實。

在C端,各家大模型圍繞著各種場景,不斷挖礦著其應用的想像力。在GPT-3.5頁面上,這四個功能就顯得有些簡樸了。

然而,隨著外形雷同、功能相似的AI繪畫、AI聊天機器人等AIGC應用程式湧入市場,人們對這些應用的新鮮感逐漸消散,趣味性有餘且專業性不足。

目前,大模型的應用已經由C端拓展向B端。各家公司紛紛推出面向企業的「大模型商店」,透過B端業務緩解研發成本過高帶來的壓力。不過,由於生態建設以及用戶馴化還尚需時日,談大模型賺錢,對於各家公司來說或許還為時過早。

也許,國產大模型未必要跟GPT比較,誰能在激烈的市場中獲得更高的「留」量,誰能真正實現在場景中的實際應用,才能跑到最後。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts