幻覺處理國內最優530億參數Baichuan2推理能力飆漲100%，首次開放API商用

原文來源：新智元

圖片來源：由無界AI生成

百川大模型，昨日全面升級

就在9月25日，百川智能正式發表了全新升級的530億參數大模型－Baichuan2-53B。

體驗網址：https://www.baichuan-ai.com/home

這一次，它的數學和邏輯推理能力顯著提升。

更重要的是，透過高品質資料體系和搜尋增強，Baichuan2-53B的幻覺大大降低，是目前國內幻覺問題最低的大模型。

不僅如此，作為首批通過備案的大模型企業，百川智慧也開放了Baichuan2-53B API介面。

這意味著，百川智能正式進軍To B領域，從此開啟商業化進程。

幻覺處理，國內遙遙領先

最值得一提的是，新升級的Baichuan2-53B，在「幻覺」處理上已經在國內產業遙遙領先了。

簡單講，「幻覺」就是LLM在沒有任何已知事實支撐下，常常會一本正經地胡說八道。

別看GPT-4在多種任務上表現突出，但也無法逃過這詛咒。

那麼，為什麼大模型會出現「幻覺」呢？

4月，OpenAI共同創辦人兼研究科學家John Schulman在UC柏克萊的演講中，詳細闡述了大模型難以攻克的難題。

在Schulman看來，LLM黑盒內部隱藏著一個「知識圖譜」。如果這個架構中沒有的知識，僅透過SFT教大模型（即行為複製）知識，實則在教它輸出幻覺。

針對這個難題，百川智能又是如何在大模型的「幻覺處理」上，做到業界領先的呢？

在高品質資料建置上，Baichuan2-53B獨創了一套資料品質系統。

以低質、優質為標準將資料分類，確保Baichuan2-53B始終使用優質資料進行預訓練。

另外，在資訊取得方面，Baichuan2-53B對多個模組進行了升級，包括指令意圖理解、智慧搜尋和結果增強等關鍵元件。

這個綜合體系透過深入理解使用者指令，精確驅動查詢詞的搜索，最終結合大語言模型技術，優化模型結果產生的可靠性，實現更精確、更聰明的模型回答結果，減少模型幻覺。

例如，在解釋「勾三股四弦五」這個問題上，GPT-4顯然是在胡說八道。

相比之下，Baichuan2-53B一次就給了正確的答案。

再例如，「週樹人和魯迅是不是同一個人」這道經典問題，Baichuan2-53B的回答既全面又準確。

可以看到，透過建立高品質資料體系，以及搜尋增強技術兩方面的最佳化，Baichuan2-53B有效降低了模型幻覺。

經過FacTool評測後的結果顯示，Baichuan2-53B的綜合得分為140.5，在主流基礎大模型中僅排在GPT-4之後，處於國內領先水準。

FacTool是由上海交通大學、卡內基美隆大學、香港城市大學、Meta 等機構學者共同提出的一個通用框架，能夠查核大模型生成內容的事實準確性（也能查核一般性內容的事實準確性）。

專案地址：https://github.com/GAIR-NLP/factool

能力升級，推理100% up

其實，Baichuan2-53B已經是百川智能發表的第6款大模型了。

4月10日百川智能成立後，就一直以驚人的速度創新，迭代的速度竟然達到了平均每28天就推出一款大模型

早在8月8日Baichuan2-53B剛發佈時，它就展現了優異的知識問答、文學創作才能。

如果要問，評估一款大模型是否領先的重要指標是什麼，相信「數學和邏輯推理能力」，會是許多業內人士給出的答案。

這次，在Baichuan-53B的基礎上，Baichuan2-53B就重點強化了數學和邏輯推理的能力，並且，也對整體能力進行了全面升級。

具體來說，它的邏輯推理能力提升100%，數學能力提升31%，語言理解能力提升29%，文本創作提升18%，知識問答提升9%。

數學推理

數學能力大升級的Baichuan2-53B，做數學應用題來當然是不在話下。

例如，兩個數的和是572，其中一個加數個位上是0，去掉0後，就跟第二個加數相同。那麼，這兩個數分別是呢？

Baichuan2-53B列出了方程式，假設一個加數是10A，另一個為B，然後根據已知條件，得出正解。

再例如下題中，Baichuan2-53B先計算出來了總運輸收入，然後除以每箱玻璃虧損的錢，就得到了損壞的玻璃箱數。

再來個經典的「兩地相距多少千公尺」的問題，Baichuan2-53B透過逐步計算，得出了正確答案。

推理方面，先來個簡單的問題：天氣預報本週三會下雨，昨天果然下雨了，今天是星期幾？

Baichuan2-53B毫不費力，直接得出「星期四」

接下來，推理難度稍微升級一下：假設有一個礦池塘，裡面有無限多的水。

現有兩個空水壺，容積分別為5公升和6公升。問如何只有這2個水壺，從礦池取得3公升的水？

Baichuan2-53B行雲流水地開始作答，6步內給出了正確答案。

經過多輪的測試可以發現，升級後的Baichuan2-53B的數學和邏輯推理能力，果然不可同日而語。在曾經不太擅長的題目上，它都有了大幅提升。

時效問題

而在時效性這方面，Baichuan2-53B的表現可謂十分優異。

杭州亞運會剛開幕，年紀最小的選手竟然只有9歲。 Baichuan2-53B在最新的問題上，也答對了。

甚至，Baichuan2-53B準確地解釋了，特斯拉剛剛公佈的人形機器人Optimus背後神經網路原理。

再例如，今年9月上旬，第80屆威尼斯影展在義大利落幕。

這次影展，是否有中國電影和演員獲獎？

Baichuan2-53B立刻回答出，李鴻其的《愛是一把槍》獲得了最佳長片首作，梁朝偉獲得了終身成就金獅獎。

梅老闆與大巴黎的合約今年6月底到期，在7月正式加盟邁阿密國際。

對此，Baichuan2-53B也是瞭如指掌。

同樣，它還可以準確地告訴你小德一共拿了24次大滿貫，包括2023年的這次。

開放API，正式進軍商用

不僅如此，這次Baichuan2-53B還正式開放了API接口，可以讓企業和開發者將模型整合到自己的應用和服務中。

API網址：https://platform.baichuan-ai.com

這項服務是否有門檻呢？

可以說，幾乎沒有。 Baichuan2-53B的API介面相當便捷易用，只需要簡單的配置和集成，就可以接入了。

而且，它對OpenAI的介面高度相容，這樣就可以讓客戶快速遷移，無論是模型的部署成本還是轉換成本，都大大降低。

總之，現在無論是智慧客服、智慧寫作或智慧推薦，都能得到大模型的能力加持。

要說企業用戶最關注的，莫過於安全合規問題了。

對此也無需擔心。

作為首批透過《生成式人工智慧服務管理暫行辦法》備案的大模型企業，百川智能為Baichuan2-53B打造了覆蓋大模型預訓練、精調、推理全週期的安全增強，可以說，全流程都在安全保障之下。

而藉由Baichuan2-53B豐富強大的模型能力，企業用戶不僅能讓現有業務升級、減低成本，還能探索更多的應用情境。

可以相信，就在此刻，已經有一大波令人印象深刻的創新，正在土壤中醞釀了。

參考資料：

https://www.baichuan-ai.com/home

幻覺處理國內最優530億參數Baichuan2推理能力飆漲100%，首次開放API商用

數學推理

時效問題

XRP預計將通過QR錢包在偏遠農村社區實現採用

8月14日隔夜重要動態一覽

Ondo、SPX、PEPD與ETH：頂級以太坊分析師推薦的四種讓你成為百萬富翁的加密貨幣與Pepe Dollar購買指南

距離歷史高點一步之遙，業內深入分析以太坊未來發展走勢

屈服邊緣隨漂移而變化

2025年Casinopunkz賭場獎金與VIP福利概述

隨著Altcoin Season Signals的建設，比特幣達到12萬美元–

湯姆·李預測以太坊將於未來達到12,000美元的時間表

幻覺處理國內最優530億參數Baichuan2推理能力飆漲100%，首次開放API商用

數學推理

時效問題

Related Posts