幻覺處理國內最優530億參數Baichuan2推理能力飆漲100%,首次開放API商用


原文來源:新智元

圖片來源:由無界AI生成

百川大模型,昨日全面升級

就在9月25日,百川智能正式發表了全新升級的530億參數大模型-Baichuan2-53B。

體驗網址:https://www.baichuan-ai.com/home

這一次,它的數學和邏輯推理能力顯著提升。

更重要的是,透過高品質資料體系和搜尋增強,Baichuan2-53B的幻覺大大降低,是目前國內幻覺問題最低的大模型。

不僅如此,作為首批通過備案的大模型企業,百川智慧也開放了Baichuan2-53B API介面。

這意味著,百川智能正式進軍To B領域,從此開啟商業化進程。

幻覺處理,國內遙遙領先

最值得一提的是,新升級的Baichuan2-53B,在「幻覺」處理上已經在國內產業遙遙領先了。

簡單講,「幻覺」就是LLM在沒有任何已知事實支撐下,常常會一本正經地胡說八道。

別看GPT-4在多種任務上表現突出,但也無法逃過這詛咒。

那麼,為什麼大模型會出現「幻覺」呢?

4月,OpenAI共同創辦人兼研究科學家John Schulman在UC柏克萊的演講中,詳細闡述了大模型難以攻克的難題。

在Schulman看來,LLM黑盒內部隱藏著一個「知識圖譜」。如果這個架構中沒有的知識,僅透過SFT教大模型(即行為複製)知識,實則在教它輸出幻覺。

針對這個難題,百川智能又是如何在大模型的「幻覺處理」上,做到業界領先的呢?

在高品質資料建置上,Baichuan2-53B獨創了一套資料品質系統。

以低質、優質為標準將資料分類,確保Baichuan2-53B始終使用優質資料進行預訓練。

另外,在資訊取得方面,Baichuan2-53B對多個模組進行了升級,包括指令意圖理解、智慧搜尋和結果增強等關鍵元件。

這個綜合體系透過深入理解使用者指令,精確驅動查詢詞的搜索,最終結合大語言模型技術,優化模型結果產生的可靠性,實現更精確、更聰明的模型回答結果,減少模型幻覺。

例如,在解釋「勾三股四弦五」這個問題上,GPT-4顯然是在胡說八道。

相比之下,Baichuan2-53B一次就給了正確的答案。

再例如,「週樹人和魯迅是不是同一個人」這道經典問題,Baichuan2-53B的回答既全面又準確。

可以看到,透過建立高品質資料體系,以及搜尋增強技術兩方面的最佳化,Baichuan2-53B有效降低了模型幻覺。

經過FacTool評測後的結果顯示,Baichuan2-53B的綜合得分為140.5,在主流基礎大模型中僅排在GPT-4之後,處於國內領先水準。

FacTool是由上海交通大學、卡內基美隆大學、香港城市大學、Meta 等機構學者共同提出的一個通用框架,能夠查核大模型生成內容的事實準確性(也能查核一般性內容的事實準確性)。

專案地址:https://github.com/GAIR-NLP/factool

能力升級,推理100% up

其實,Baichuan2-53B已經是百川智能發表的第6款大模型了。

4月10日百川智能成立後,就一直以驚人的速度創新,迭代的速度竟然達到了平均每28天就推出一款大模型

早在8月8日Baichuan2-53B剛發佈時,它就展現了優異的知識問答、文學創作才能。

如果要問,評估一款大模型是否領先的重要指標是什麼,相信「數學和邏輯推理能力」,會是許多業內人士給出的答案。

這次,在Baichuan-53B的基礎上,Baichuan2-53B就重點強化了數學和邏輯推理的能力,並且,也對整體能力進行了全面升級。

具體來說,它的邏輯推理能力提升100%,數學能力提升31%,語言理解能力提升29%,文本創作提升18%,知識問答提升9%。

數學推理

數學能力大升級的Baichuan2-53B,做數學應用題來當然是不在話下。

例如,兩個數的和是572,其中一個加數個位上是0,去掉0後,就跟第二個加數相同。那麼,這兩個數分別是呢?

Baichuan2-53B列出了方程式,假設一個加數是10A,另一個為B,然後根據已知條件,得出正解。

再例如下題中,Baichuan2-53B先計算出來了總運輸收入,然後除以每箱玻璃虧損的錢,就得到了損壞的玻璃箱數。

再來個經典的「兩地相距多少千公尺」的問題,Baichuan2-53B透過逐步計算,得出了正確答案。

推理方面,先來個簡單的問題:天氣預報本週三會下雨,昨天果然下雨了,今天是星期幾?

Baichuan2-53B毫不費力,直接得出「星期四」

接下來,推理難度稍微升級一下:假設有一個礦池塘,裡面有無限多的水。

現有兩個空水壺,容積分別為5公升和6公升。問如何只有這2個水壺,從礦池取得3公升的水?

Baichuan2-53B行雲流水地開始作答,6步內給出了正確答案。

經過多輪的測試可以發現,升級後的Baichuan2-53B的數學和邏輯推理能力,果然不可同日而語。在曾經不太擅長的題目上,它都有了大幅提升。

時效問題

而在時效性這方面,Baichuan2-53B的表現可謂十分優異。

杭州亞運會剛開幕,年紀最小的選手竟然只有9歲。 Baichuan2-53B在最新的問題上,也答對了。

甚至,Baichuan2-53B準確地解釋了,特斯拉剛剛公佈的人形機器人Optimus背後神經網路原理。

再例如,今年9月上旬,第80屆威尼斯影展在義大利落幕。

這次影展,是否有中國電影和演員獲獎?

Baichuan2-53B立刻回答出,李鴻其的《愛是一把槍》獲得了最佳長片首作,梁朝偉獲得了終身成就金獅獎。

梅老闆與大巴黎的合約今年6月底到期,在7月正式加盟邁阿密國際。

對此,Baichuan2-53B也是瞭如指掌。

同樣,它還可以準確地告訴你小德一共拿了24次大滿貫,包括2023年的這次。

開放API,正式進軍商用

不僅如此,這次Baichuan2-53B還正式開放了API接口,可以讓企業和開發者將模型整合到自己的應用和服務中。

API網址:https://platform.baichuan-ai.com

這項服務是否有門檻呢?

可以說,幾乎沒有。 Baichuan2-53B的API介面相當便捷易用,只需要簡單的配置和集成,就可以接入了。

而且,它對OpenAI的介面高度相容,這樣就可以讓客戶快速遷移,無論是模型的部署成本還是轉換成本,都大大降低。

總之,現在無論是智慧客服、智慧寫作或智慧推薦,都能得到大模型的能力加持。

要說企業用戶最關注的,莫過於安全合規問題了。

對此也無需擔心。

作為首批透過《生成式人工智慧服務管理暫行辦法》備案的大模型企業,百川智能為Baichuan2-53B打造了覆蓋大模型預訓練、精調、推理全週期的安全增強,可以說,全流程都在安全保障之下。

而藉由Baichuan2-53B豐富強大的模型能力,企業用戶不僅能讓現有業務升級、減低成本,還能探索更多的應用情境。

可以相信,就在此刻,已經有一大波令人印象深刻的創新,正在土壤中醞釀了。

參考資料:

https://www.baichuan-ai.com/home

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts