開源標竿最強中英雙語大模型來了,340億參數,超越L​​lama2-70B等所有開源模型


作者:金磊

來源:量子位元

開源界最強的中英雙語大模型,悟道·天鷹34B,來了

有多強?一言蔽之:

中英綜合能力、邏輯推理能力等,全面超越Llama2-70B及先前所有開源模型

推理能力方面對話模型IRD評測基準僅次於GPT4。

不僅模型夠大夠能打,而且一口氣送上整套「全家桶」級豪華週邊。

能有這麼大手筆的,正是中國大模型開源派先鋒——智源研究院。

而若是縱觀智源在數年來的大模型開源之道,不難發現它正在引領著一種新風向:

早在2021年就把全球最大語料庫公開,2022年最早前瞻佈局FlagOpen大模型技術開源體系,連續推出了FlagEval評測體系、COIG資料集、BGE向量模型等全技術堆疊明星專案。

這一魄力正是來自智源非商業、非營利的中立研究機構定位,主打的就是一個「誠心誠意開源共創」。

據了解,Aquila2-34B 基座模型在22個評測基準的綜合排名領先,包括語言、理解、推理、代碼、考試等多個評測維度。

一張圖來感受一下這個feel:

△圖:Base 模式評測結果(詳細資料集評測結果請見官方開源倉庫介紹)

如同剛才所提到的,北京智源人工智慧研究院也非常良心地將開源貫徹到底,一口氣帶來開源全家桶:

全面升級Aquila2模型系列:Aquila2-34B/7B基礎模型,AquilaChat2-34B/7B對話模型,AquilaSQL「文本-SQL語言」模型;

語意向量模型BGE新版升級:4大檢索訴求全覆蓋。

FlagScale 高效率平行訓練框架:訓練吞吐量、GPU 使用率業界領先;

FlagAttention 高性能Attention算子集:創新支撐長文本訓練、Triton語言。

接下來,我們繼續深入了解這次的「最強開源」。

「最強開源」能力一覽

正如我們剛才提到的Aquila2-34B,它是這次以「最強開源」姿勢打開的基座模型之一,還包括一個較小體積的Aquila2-7B。

而它倆的到來,也讓下游的模型收益頗豐。

最強開源對話模型

在經指令微調得到了優秀的AquilaChat2對話模型系列:

AquilaChat2-34B:是目前最強開源中英雙語對話模型,在主觀+客觀綜合評測中全面領先;

AquilaChat2-7B:也取得同量級中英對話模型中綜合表現最佳成績。

△ SFT 模式評測結果(詳細資料集評測結果請見官方開源倉庫介紹)

評測說明:

對於生成式對話模型,智源團隊認為需要嚴格按照「模型在問題輸入下自由生成的答案」進行評判,這種方式貼近用戶真實使用場景,因此參考史丹佛大學HELM[1]工作進行評測,該評測對於模型的上下文學習和指令跟隨能力要求更為嚴格。實際評測過程中,部分對話模型回答不符合指令要求,可能會出現「0」分的情況。

例如:根據指令要求,正確答案為“A”,如果模型生成為“B”或“答案是A ”,都會被判為“0”分。

同時,業界也有其他評測方式,例如讓對話模型先拼接“問題+答案”,模型計算各個拼接文本的機率後,驗證機率最高的答案與正確答案是否一致,評測過程中對話模型不會產生任何內容而是計算選項機率。這種評測方式與真實對話場景偏差較大,因此在生成式對話模式評測中並未採納。

[1] https://crfm.stanford.edu/helm/latest/

不僅如此,在對於大語言模型來說非常關鍵的推理能力上,AquilaChat2-34B的表現也非常的驚艷—

在IRD評測基準中排名第一,超越Llama2-70B、GPT3.5等模型,僅次於GPT4。

△圖:SFT模型在IRD資料集上的評測結果

從種種成績來看,無論是基座模型亦或是對話模型,Aquila2系列都稱得上是開源界最強了。

上下文視窗長度至16K

對於大語言模型來說,能否應付長文本輸入,並且在多輪對話過程中保持上下文的流暢度,是決定其體驗好壞的關鍵。

為了解決這個「苦大模型久矣」的問題,北京智源人工智慧研究院便在20萬條優質長文本對話資料集上做了SFT,一舉將模型的有效上下文視窗長度擴展至16K。

而且不只是長度上的提升,效果上更是得到了優化。

例如在LongBench的四項中英文長文本問答、長文本總結任務的評測效果上,就非常的明顯了——

AquilaChat2-34B-16K處於開源長文本模型的領先水平,接近GPT-3.5長文本模型。

△圖:長文本理解任務評測

除此之外,智源團隊對多個語言模型處理超長文本的注意力分佈做了視覺化分析,發現所有的語言模型均存在固定的相對位置瓶頸,顯著小於上下文視窗長度。

為此,智源團隊創新提出NLPE(Non-Linearized Position Embedding,非線性位置編碼)方法,在RoPE 方法的基礎上,透過調整相對位置編碼、約束最大相對長度來提升模型外延能力。

在程式碼、中英文Few-Shot Leaning、電子書等多個領域上的文本續寫實驗顯示,NLPE可以將4K的Aquila2-34B模型外延到32K長度,且續寫文本的連貫性遠好於Dynamic- NTK、位置插值等方法。

△圖:NLPE與主流Dynamic-NTK外延方法在Base模型上的能力比較(ppl值越低越好)

不僅如此,在長度為5K~15K的HotpotQA、2WikiMultihopQA等資料集上的指令跟隨能力測試顯示,經過NLPE 外延的AquilaChat2-7B(2K)準確率為17.2%,而Dynamic-NTK 外延的AquilaChat2-7B 準確率僅為0.4%。

△圖:NLPE與主流Dynamic-NTK外延法在SFT模型上的能力比較

各類真實應用場景都能hold住

「成績」好,只是檢驗大模型的標準之一,更重要的是「好用才是硬道理」。

這也就是大模型的泛化能力了,即使遇到沒有看過的問題,也能輕鬆應付。

為此,悟道天鷹團隊透過三個真實應用場景驗證了Aquila2模型的泛化能力。

《我的世界》裡打造強大智能體

《我的世界》這款遊戲可以說是AI界檢驗技術的很好的試煉場。

它具有無限生成的複雜世界和大量開放的任務,為智能體提供了豐富的互動介面。

智源研究院與北京大學團隊便基於此,提出了在無專家數據的情況下高效解決Minecraft 多任務的方法—— Plan4MC。

Plan4MC可以使用內在獎勵的強化學習訓練智能體的基本技能,使得智能體可以利用大語言模型AquilaChat2的推理能力進行任務規劃。

例如在下面的這段影片中,便展示了智能體利用AquilaChat2進行自動完成多輪對話互動的效果。

將遊戲「目前環境狀態」、「需要完成的任務」等資訊輸入AquilaChat2模型,AquilaChat2 回饋給角色「下一步使用什麼技能」等決策訊息,最終完成了在《我的世界》中設定的任務“伐木並製作工作台放在附近」的任務。

透過Aquila2+BGE2連結向量資料庫

向量資料庫近年來在大模型圈裡成為了香餑餑,但在面對複雜、需要深度理解問題時,能力上還是略顯捉襟見肘。

為此,智源研究院便將Aqiula2和自研的開源語義向量模型BGE2做了結合,徹底解鎖了一些僅基於傳統向量庫的檢索方法不能解決的複雜檢索任務。

例如在下面的這個例子中,我們可以明顯看到,在處理「檢索某個作者關於某個主題的論文」、「針對一個主題的多篇論文的生成總結文本」這樣的任務,會變得非常絲滑。

最優「文字-SQL語言」生成模型

很多用戶在處理資料庫查詢等任務時,對於SQL語言可謂頭痛不已。

若是能用我們常用的大白話來操作,豈不美哉?

現在,這種便捷的方式已經可以實現了——AquilaSQL。

在實際應用情境中,使用者還可以基於AquilaSQL進行二次開發,將其嫁接至本地知識庫、產生本地查詢SQL,或進一步提升模型的資料分析效能,讓模型不僅回傳查詢結果,更能進一步產生分析結論、K線走勢圖等。

例如在處理下面這個複雜查詢任務時,現在只需要說一句自然語言即可:

從包含汽車銷售量(car_sales)、汽車顏色(car_color)的兩個資料表中篩選銷量大於100且顏色為紅色的汽車。

而且AquilaSQL的「成績」同樣非常亮眼。

在經過SQL語料的繼續預訓練和SFT 兩階段訓練,最終以67.3%準確率超過「文字-SQL語言生成模型」排行榜Cspider 上的SOTA模型。

而未經過SQL語料微調的GPT4模型準確率僅30.8%。

還有全家桶級的開源

正如我們前文所提到的,智源研究院對開源這事向來主打的就是徹底。

這次在大模型升級之際,智源研究院同樣是毫無保留地把一系列包括演算法、數據、工具、評測方面的明星計畫都開源了出來。

據了解,Aquila2系列模型不僅全面採用商用授權協議,允許公眾廣泛應用於學術研究和商業應用。

接下來,我們便來速覽一下這些開源全家桶。

高效並行訓練框架FlagScale

FlagScale 是Aquila2-34B 所使用的高效並行訓練框架,可提供一站式語言大模型的訓練功能。

智源團隊將Aquila2 模型的訓練配置、最佳化方案和超參數透過FlagScale專案分享給大模型開發者,在國內首次完整開源訓練程式碼和超參數。

FlagScale 是基於Megatron-LM 擴充功能而來,提供了一系列功能增強,包括分散式優化器狀態重切分、精確定位訓練問題資料以及參數到Huggingface轉換等。

經過實測,Aquila2 訓練吞吐量和GPU 使用率均達到業界領先水準。

△圖:FlagScale 訓練吞吐量與GPU利用率(資料來源與估算公式請見文末)

據了解,FlagScale在未來也將繼續保持與上游專案Megatron-LM 最新程式碼同步,引入更多客製化功能,融合最新的分散式訓練與推理技術以及主流大模型、支援異構AI硬件,試圖建立一個通用、便利、高效的分散式大模型訓練推理框架,滿足不同規模與需求的模型訓練任務。

FlagAttention高效能Attention開源算符集

FlagAttention 是首個支援長文本大模型訓練、使用Triton語言開發的高效能Attention開源算子集,針對大模型訓練的需求,對Flash Attention 系列的Memory Efficient Attention 算子進行擴展。

目前已實作分段式Attention 算符-PiecewiseAttention。

PiecewiseAttention主要解決了帶有旋轉位置編碼Transformer 模型(Roformer)的外推問題,它所具備的特點可以總結為:

通用性:對使用分段式計算Attention 的模型具有通用性,可以輕鬆遷移至Aquila 以外的大語言模型。

易用性:FlagAttention 基於Triton 語言實現並提供PyTorch 接口,構建和安裝過程相比CUDA C 開發的Flash Attention 更加便捷。

擴展性:同樣得益於Triton 語言,FlagAttention 演算法本身的修改和擴展門檻較低,開發者可便捷地在此之上拓展更多新功能。

未來,FlagAttention專案將繼續針對大模型研究需求,支援其他功能擴展的Attention 算子,進一步優化算子效能,並適應更多異質AI硬體。

BGE2 新一代語意向量模型

新一代BGE語意向量模型,也將隨Aquila2 同步開源。

BGE2 中的BGE – LLM Embedder 模型整合了「知識檢索」、「記憶檢索」、「範例檢索」、「工具檢索」四大能力。

它首次實現了單一語意向量模型對大語言模型主要檢索訴求的全面覆蓋。

結合具體的使用場景,BGE – LLM Embedder將顯著提升大語言模型在處理知識密集任務、長期記憶、指令跟隨、工具使用等重要領域的表現。

……

那麼對於如此徹底的“最強開源”,你心動了嗎?

One More Thing

智源研究院會在10月28日至29日舉辦新一期大模型前沿技術講習班,9位主力研究員會詳細介紹FlagOpen 的近期進展和落地實踐。

有興趣的小夥伴也可以碼住了。

Aquila2 模型全系開源位址:

https://github.com/FlagAI-Open/Aquila2

https://model.baai.ac.cn/

https://huggingface.co/BAAI

AquilaSQL 開源倉庫位址:

https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila/Aquila-sql

FlagAttention 開源程式碼倉庫:

https://github.com/FlagOpen/FlagAttention

BGE2 開源位址

paper: https://arxiv.org/pdf/2310.07554.pdf

model: https://huggingface.co/BAAI/llm-embedder

repo: https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/llm_embedder

LLAMA2吞吐量估算公式:total tokens / (total GPU hours * 3600) ,根據Llama 2: Open基金and Fine-Tuned Chat Models論文:1)7B的total tokens為2.0 T, total GPU hours 為184320,代入公式得3014代幣/sec/GPU;2)34B的total tokens為2.0 T, total GPU hours 為1038336,代入公式得535代幣/sec/GPU。

— 完—

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts