全球最強長文本大模型,一次可讀35萬漢字:Baichuan2-192K上線


大模型看書,從來沒有這麼快過。

圖片來源:由無界AI生成

國內大模型創業公司,正在技術前沿創造新的記錄。

10 月30 日,百川智能正式發布Baichuan2-192K 長窗口大模型,將大語言模型(LLM)上下文視窗的長度一舉提升到了192K token。

這相當於讓大模型一次處理約35 萬個漢字,長度達到了GPT-4(32K token,約2.5 萬字)的14 倍,Claude 2.0(100K token,約8 萬字) 的4.4 倍。

換句話說,Baichuan2-192K 可以一次讀完一本《三體2》,是全球處理上下文視窗長度最長的大模型。此外,它也在文本生成品質、上下文理解、問答能力等多個維度的評測中顯著領先對手。

能夠一次理解超長文本的大模型,究竟能做哪些事?百川智能進行了一番簡單示範。

上傳一整部《三體2:黑暗森林》的PDF 文件,百川大模型統計出來是30 萬字。接下來,如果你詢問有關這本小說裡的任何問題,大模型都可以給出簡潔準確的答案。

有時候我們尋求AI 的幫助,並不是希望他們發揮想像力,而是要提取準確資訊。有了Baichuan2-192K,我們可以快速解讀幾十頁,甚至幾百頁的合約文件,讓AI 快速給出簡潔摘要,四捨五入就是量子速讀了:

那如果我突然接到新任務,有一堆文件要看呢?

直接打包一起上傳就好了,百川大模型可以輕鬆把五篇新聞整合成一篇。

大模型能夠理解的內容變長之後,應用的方向會越來越多。眾所周知,長文本建模能力是許多場景能夠應用落地的前提條件。這一次,百川做到了業界領先。

從幾萬字到幾十萬字,頭部新創公司都在搶灘「長窗口」

如果你關注大模型在文字理解方向的應用,或許會注意到一個現象:一開始,大家用來測評模型能力的文本可能都是一些財報、技術報告,這些文本通常有十幾頁到幾十頁不等,字數通常也就幾萬字。但後來,測試文本逐漸演變為幾個小時的會議記錄,或者幾十萬字的長篇小說,競爭越來越激烈,難度也越來越大。

同時,宣稱能理解更長上下文的大模型公司也越來越受關注。例如前段時間,宣稱能實現100K token 上下文視窗的大模型——Claude 背後的公司Anthropic 先後拿到了微軟和谷歌數十億美元的融資,將大模型軍備競賽推向了新的層面。

為什麼這些公司都在挑戰長文?

首先從應用的角度來看,使用大模型來提高生產力的許多工作者都不免要處理很長的文本,比如律師、分析師、諮詢師等,上下文窗口越大,這些人能用大模型做的事情就越廣泛;其次,從技術的角度來看,窗口所能容納的資訊越多,模型在生成下一個字時可以參考的資訊就越多,「幻覺」發生的可能性就越小,生成的資訊就越準確,這是大模型技術落地的必要條件。所以,在想辦法提升模型效能的同時,各家公司也在比拼誰能把上下文視窗做得更大,從而投放到更多的應用場景。

從前面展示的一些例子中可以看到,Baichuan2-192K 在文本生成品質和上下文理解方面表現都很出色。而且,在這些定性結果之外,我們還可以從一些定量評估數據中看到這一點。

Baichuan2-192K:文件越長,優勢越明顯

在文本生成品質評估中,一個很重要的指標叫做「困惑度」:當我們將符合人類自然語言習慣的高品質文件作為測試集時,模型生成測試中心化文本的機率越高,模型的困惑度就越小,模型也越好。

用來測試百川大模型困惑度的測試集名叫PG-19。這個資料集由DeepMind 的研究人員製作,用來製作該資料集的資料來自古騰堡計劃的圖書,因此PG-19 具有書本等級的品質。

測試結果如下圖所示。可以看到,在初始階段(橫軸左側,上下文長度比較短的階段),Baichuan2-192K 的困惑度便處於較低的水準。隨著情境長度的增加,它的優勢變得愈發明顯,甚至呈現出困惑度持續下跌的狀態。這說明,在長上下文的場景中,Baichuan2-192K 更能維持書本級的文本生成品質。

在上下文理解能力上,Baichuan2-192K 的表現也非常亮眼。

這項能力的評估採用了權威的長窗口文本理解評測基準LongEval。 LongEval 是由加州大學柏克萊分校聯合其他大學發布的針對長窗口模型評測的榜單,主要衡量模型對長窗口內容的記憶和理解能力,模型得分越高越好。

從下圖的評估結果可以看到,隨著上下文長度的增加,Baichuan2-192K 一直能夠保持穩定的高效能,在視窗長度超過100K 之後也是如此。相較之下,Claude 2 在視窗長度超過80K 後整體效果下跌就已經非常嚴重。

此外,模型在Dureader、NarrativeQA、TriviaQA、LSHT 等多個中英文長文本問答、摘要的評測集上也經歷了測試。結果顯示,Baichuan2-192K 同樣表現優異,在大部分長文本評測任務中都遠超其他模式。

簡而言之,處理的內容越長,百川的大模型相對性能就越好。

192K 超長上下文,百川是怎麼做到的?

擴大上下文視窗能有效提升大模型效能是人工智慧產業的共識,但超長上下文視窗意味著更高的算力需求和更大的顯存壓力。

為了緩解這種壓力,業內出現了一些折中的方法,例如把模型做小;讓模型透過滑動視窗等方式主動拋棄前文,只保留對最新輸入的注意力機制;透過對上下文的降採樣或RAG (檢索增強的生成),只保留對部分輸入的注意力機制等等。

這些方式雖然能提升上下文視窗長度,但對模型的效能都有不同程度的損害。換言之,它們都是透過犧牲模型其他方面的表現來換取上下文視窗長度,例如模型無法基於全文資訊回答複雜問題,難以跨多個文本綜合考慮答案等。

而本次百川發布的Baichaun2-192K 透過演算法和工程的極致優化,實現了視窗長度和模型效能之間的平衡,做到了視窗長度和模型效能的同步提升。

在演算法方面,百川智能提出了一種針對RoPE 和ALiBi 的動態位置編碼的外推方案,該方案能夠對不同分辨率的ALiBi_mask 進行不同程度的Attention-mask 動態內插,在保證分辨率的同時增強了模型對長序列依賴的建模能力。

工程方面,在自主開發的分散式訓練框架基礎上,百川智慧整合了目前市場上所有先進的最佳化技術,包括張量並行、流水並行、序列並行、重計算以及Offload 功能等,獨創了一套全面的4D 平行分散式方案。此方案能夠根據特定的負載情況,自動尋找最適合的分散式策略,大幅降低了長視窗推理過程中的顯存佔用。

打大模型之戰,速度要快

成立於今年4 月的百川智能,幾乎可以說是業界技術迭代最快的大模型新創公司。在成立僅半年的時間裡,這家公司就已經發布了Baichuan-7B/13B、Baichuan2-7B/13B 四款開源可免費商用的大模型,以及Baichuan-53B、Baichuan2-53B 兩款閉源大模型。

平均下來,每個月就發布一款新的大模型。

Baichuan 系列大模型融合了意圖理解、資訊檢索以及強化學習技術,結合監督微調與人類意圖對齊,在知識問答、文本創作領域中表現突出。這些大模型也因其能力在業界備受青睞:Baichuan 系列開源模型在各大開源社群的上漲下載量已突破六百萬次;Baichuan 2 更是在各維度全面領先Llama 2,引領了中國開源生態發展。

8 月31 日,百川智能率先通過《生成式人工智慧服務管理暫行辦法》,是首批8 家公司中唯一一家今年創立的大模型公司。 9 月25 日,百川智慧開放Baichuan API 接口,正式進軍To B 領域,開啟商業化進程。

可以說,從技術研發到落地,百川的速度都夠快。

剛發布的Baichuan2-192K 已經正式開啟內測,將以API 呼叫的方式開放給核心合作夥伴。百川表示,其已經與財經類媒體及律師事務所等機構達成了合作,把Baichuan2-192K 領先的長上下文能力應用到了傳媒、金融、法律等具體場景當中,不久後將以API 調用和私有化部署的方式提供給企業用戶。

在以API 的形式全面開放之後,Baichuan2-192K 能夠與大量垂直場景深度結合,在人們的工作、生活、學習中發揮作用,助力行業用戶大幅提升效率。 Baichuan2-192K 能夠一次處理和分析數百頁的資料,對於長篇文件關鍵資訊擷取與分析,長篇文件摘要、長文件審核、長篇文章或報告撰寫、複雜程式設計輔助等真實情境都有巨大的助力作用。

此前,百川智能創辦人、CEO 王小川曾透露,今年下半年,百川將推出千億級的大模型,明年預計會有C 端的超級應用部署。

面對與OpenAI 的差距,王小川坦言,在理想方面我們和OpenAI 確實存在差距,OpenAI 的目標是探索智能的天花板,他們甚至希望設計出將1000 萬顆GPU 連在一塊的技術。但是,在應用方面我們比美國走得更快,互聯網時代增持下來的應用和生態的經驗,能讓我們走的更快也更遠,所以百川做大模型的理念,叫做“理想上慢一步,落地上快三步」。

由此來看,Baichuan2-192K 正是這種理念的延展,全球最長的脈絡窗口無疑也將加速百川智慧大模型技術落地的進程。

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts