“1024 直接對標ChatGPT”科大訊飛星火大模型立Flag、一手實測來了

作者| 屠敏

出品| CSDN（ID：CSDNnews）

短短半年之內，在大模型賽道上，國內外AI 頭部玩家陸續帶著自己的AIGC 產品迅速就位並“開跑”。現如今，誰能打造出中國版ChatGPT，已經不再是一個問題。但是，誰能做出更好的中國版ChatGPT，成為業界關注的重點。

北京時間5 月6 日下午2:00，作為人工智能“國家隊”的科大訊飛，如約揭曉了其認知大模型——訊飛星火的真實面紗，並帶來了豐富的應用成果，為中國生成式AI 市場再添一位猛將。

目前，訊飛星火認知大模型已經開啟內測（https://xinghuo.xfyun.cn）。 CSDN 在早前已經獲得了內測，下文中，我們也將與大家一起探測「訊飛星火認知大模型」的真實情況，以及它的與眾不同之處。

帶著 7 大類481 個細分的任務類型，訊飛星火認知大模型來了

在發布會現場，科大訊飛董事長劉慶峰表示，認知大模型的技術階躍和快速進化，讓人工智能在全球掀起全新熱潮。當前，認知大模型成為通用人工智能的“曙光”。與此同時，認知大模型的“智能湧現”將帶來解決人類剛需的全新機遇。

具體來看，智能湧現的通用人工智能係統具有七大能力，包括文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力。基於此，人類只要做畫龍點睛的加工，就能得到“懂你所言，答你所問，創你所需，解你所難，學你所教”的所有內容。

訊飛星火認知大模型是基於科大訊飛12 年的技術增持，打造而成，實現了通用人工智能係統七大能力中的481 個細分任務。其還在2022 年12 月15 日，正式啟動“1+N”認知大模型專項攻關，其中“1”就是指通用認知智能大模型，“N”就是大模型在教育、辦公、汽車、人機交互等各個領域的落地。

對於先行者，劉慶峰表示，「向OpenAI 致敬和學習，快速追趕並努力超越」。

與此同時，其更是在現場目標明確，立下 2023 年內訊飛星火認知大模型的升級Flag：

6 月9 日，訊飛星火認知大模型將突破開放式問答、升級多輪對話能力、數學能力。 8 月15 日，突破代碼能力、繼續升級多模態交互能力。 10 月24 日，訊飛星火認知大模型將在通用大模型領域直接對標ChatGPT，並在中文維度實現超越。

話不多說，我們也將從七大能力直接開啟測試模式。

代碼能力：多功能、多語言

對於程序員而言，關注的重點當然是大模型能給我們解決多少代碼、編程問題。

在此，我們便先測試一下。

譬如，捉Bug。

寫代碼：“圍繞“給定一個1-100 的整數數組，請找到其中缺少的數字”寫一段實現代碼”。

再來一個遞歸函數：

挑戰難一點的：「怎麼用C++ 編寫一個複數計算器？包括加減乘除、冪次方、取模、輻角、共軛。實部和虛部都是實數範圍。」

對此，我們諮詢了CSDN-AI 團隊研發總監對這段代碼進行了點評，其表示：訊飛星火認知大模型生成的代碼，複數類的代碼基本實現是對的，但是測試用例沒有一次性生成完整。和 GPT 生成的測試用例相比，這段代碼比較簡潔完整。

其實在代碼能力上，劉慶峰坦言，訊飛星火大模型的這一功能和ChatGPT 相比，還有很大差距，下一步升級的重點功能也是這一塊。

就連大模型自身也說道：“我的代碼生成功能仍然有限，可能無法滿足複雜的業務需求”。

簡單的代碼問題，對於訊飛星火認知大模型來說，不成問題。不過在涉及到一些複雜的工業互聯網、架構時，其生成的內容只能供參考。作為開發者，更要自行檢查代碼正確性、可靠性和保密性等等。

文本生成能力：多風格、多任務、長文本

首先，先給我們介紹一下自己：旨在“星星之火，可以燎原”。

再來科普一下認知大模型：

再讓訊飛星火認知大模型來講個英文的故事：

直接翻譯成中文試試：

幾次實測下來，訊飛星火認知大模型在不同語言的湧現能力表現都不錯：

繼續續寫一個故事：如果奧特曼出現在《西遊記》故事中，會發生什麼？

結果顯示，它對中國文化理解力也不錯：

在這一功能上，劉慶峰表示，訊飛星火大模型在國內明顯領先，並且在中文方面超過了ChatGPT，並且在持續進步中。

語言理解：多層次、跨語種

中華文化博大精深，這是否會難倒訊飛星火認知大模型？

用現場的測試案例，先來一波直擊靈魂的提問：「俗話說，男子漢大丈夫，寧死不屈。但俗話又說，男子漢大文夫，能屈能伸。這兩種說法哪種是對的」

追問：「如果有個小伙子和女朋友吵架了，他是應該寧死不屈還是能屈能伸」。

語境理解：「女朋友生氣時，說隨便，男朋友應該怎麼做？」

再來一個：「烈日之下，我哭了。烈日之下，我看到我的爸爸在幹活，我哭了。分別表達了什麼心情」

不得不說，擁有訊飛星火大模型的情商和理解力，絕對能分分鐘拯救“每步都踩在女朋友的雷點上”的他。

再來試試英文：「這句話有問題嗎：Each of the boys have a pen.」

結果顯示，此大模型不僅能識別出錯誤，也能直接給出正確的語句答案。

知識問答：泛領域、開放式

先問一下關於醫學問題：

提問：刺繡裡面的”水路”、“落繃”是什麼?

再問：「”螞蟻上樹”這道菜怎麼做?」

這一次，我們終於沒有看到真實的螞蟻被做成菜的“指南”了：

不妨再來一場辯論試試：「以”AI創作的繪畫是/不是藝術”為主題，進行辯論，正方:是藝術，反方:不是藝術，最終得出結論」

劉慶峰表示，訊飛的大模型也正在逐步學習專業的科學文獻，未來回答也會更加專業。

邏輯推理

來一道經典的“過河”推理問題：

一個人帶著一匹狼、一隻羊和一捆成交量心菜來到了河邊。他需要過河，但是河邊只有一條船，而且他只能帶一樣東西上船。他不能把狼和羊一起留在河邊，也不能讓羊和成交量心菜一起留在河邊，因為在這兩種情況下，前者都會吃掉後者。那麼，如何用最少的渡河次數把所有東西都帶到河對岸呢?解釋得詳細一些

根據我們的需求以及提問，訊飛星火認知大模型能夠盡可能提供詳盡的解答：

繼續提問：

數學能力

在數學能力上，先來一個簡單的“雞兔同籠”試試水。我們發現，相比其他大模型，訊飛星火似乎更善用方程來解決問題：

接下來，我們又用了此前在其他三四款大模型上提過的問題來進行了測試，但是彼時只有ChatGPT 回答出來了。

提問：某廠一車間有64 人，二車間有56 人，現因工作需要，要求第一車間人數是第二車間人數的一半，問需從第一車間調多少人到第二車間？（列方程解答）

訊飛星火認知大模型並沒有讓我們失望，成功做出了解答：

再來測試一下不動腦筋就會想錯的問題：「公司的股票昨天漲了10%，今天又跌了10%，請問是漲了還是跌了」。

多模態能力

截至目前，雖然星火認知大模型不是國內第一個發布的，但在多模態能力上，功能還是頗為全面的，具有語音、圖文理解、虛擬人合成、多模態交互等多種能力。

不過，有些遺憾的是，這些功能目前處於科大訊飛內部測試階段，尚未公開。根據其官方計劃，公測用戶應該能在8 月份用上。

當前，倒是可以通過現場演示一飽眼福。如上傳一張英文菜單圖片，直接翻譯為中文：

也可以暢想一下，對於英文不好的技術人而言，是不是可以通過大模型，無障礙閱讀很多英文文獻、論文了。

下面進一步交互，表現力也不錯：

也能直接語音輸出：

還能直接生成虛擬人。這個虛擬人能夠結合文字敘述的背景，配上相應的背景圖、手勢、語氣，實現寓意貫穿。

暢想一下未來

綜合以上，訊飛星火認知大模型在情商、智商、逆商不錯的表現能力，有目共睹。不過，這也引發了不少從業者的焦慮，現在不妨也讓它來與我們一起暢想一下未來。

當問及和人類的智慧相比，誰更勝一籌時，星火認知大模型給出了中肯的回答：在某些情況下，還需要人類的判斷和智慧。

面對現在很多程序員都要問上一句的“取代潮”，它表示自己不太可能完全取代程序員的工作。

暢想未來，它也能很現實地告知，理想中的AGI 離我們還有很遠，甚至可以說是遙不可及。

這對於很多新聞播報的自媒體工作者而言，無疑是福音來了。

與此同時，當問及未來開源AI 大模型的發展趨勢時，其中立地回答道：各有優劣，未來的發展趨勢將取決於具體的應用場景和技術需求。

最後

整體測試下來，訊飛星火認知大模型給我們帶來的驚喜遠遠大於預期，這也是訊飛大模型在今天發布之後頻頻獲得好評的原因。不過，劉慶峰也表示，目前純大模型技術在新知識獲取、事實類問答、史實與傳統典籍理解等方面還有一定的缺陷。

不過正如文章伊始所述，這些難題攻克都已經提上日程。

如今，訊飛星火認知大模型技術也已經從單一的大模型本身，成功擴展到教育、辦公、汽車、數字員工等N 個方向，在不斷迭代中，我們也期待星火認知大模型更加亮眼的表現。

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

“1024 直接對標ChatGPT”科大訊飛星火大模型立Flag、一手實測來了

Pundit表示Chainlink比XRP更適合與Swift合作

ALT5 Sigma計劃籌集高達15億美元設立WLFI儲備，Eric Trump加入董事會

冷錢包吸引關注，戰略交易者增長3,423％XRP下跌時ENA逆勢上漲

Stripe與Paradigm合作開發L1區塊鏈Tempo

分析師稱Cardano重現2021年高模式，注意關鍵阻力位

Goiânia將在8月23日至24日與Renato“Trezoitão”開展比特幣接收任務

WLFI推出USD1穩定幣生態，構建數字美元全球支付新基礎設施

這就是您早售賣XRP可能是最大錯誤的原因

“1024 直接對標ChatGPT”科大訊飛星火大模型立Flag、一手實測來了

Related Posts