20B量級大模型性能媲美Llama2-70B完全開源,從基座到工俱全安排明白了


來源:新智元

就在剛剛,國內開源模型參數量紀錄,又刷新了

9月20日,上海人工智慧實驗室(上海AI實驗室)與商湯科技聯合香港中文大學和復旦大學,正式開源了200億參數的InternLM-20B模式。

專案網址:https://github.com/InternLM/InternLM

魔搭社群:https://modelscope.cn/organization/Shanghai_AI_Laboratory

這次的200億參數版書生·浦語大模型,可以說是「加量不加價」,參數量還不到三分之一,性能卻可以劍挑當今開源模型的標竿——Llama2-70B。而目前主流的開源13B模型們,則在所有維度上都被InternLM-20B甩在身後。

不僅如此,面向大模型研發與應用的全鏈條工具體係也同時升級。

從開源模式本身,再到全鏈條的開源工具,這次,上海AI實驗室把自身研發大模型所沉澱的壓箱底的寶藏,全都拿了出來,希望幫助廣大研究者、機構、社會從業者,都能以極低成本和門檻,參與大模型帶來的這場科技革命。

性能「同級領先」,門檻「開箱即用」,InternLM-20B,就是大模型走向千行百業的催化劑和新支點

這股大模型的浪潮,將惠及每個人。

我們用的,全部開源

眾所周知,在大模型的整個研發體系中,有串連在一起的多個環節,這是十分複雜的一套閉環。

如何用更規範的程式碼方式去組織?拿到基座模型該怎麼用?落地到應用的一步步驟過程中,有哪些注意事項?到處都是問題。

在經過日常工作中真正的實踐後,上海AI實驗室的團隊沉澱出來一套寶貴經驗。

現在,他們為了繁榮開源生態,乾脆把模型從資料準備,到預訓練、部署,再到評測應用,這整套流程中會涉及到的工具,全部開源了。

解密「獨家配方」

數據,之於大模型重要性,就好比生產的原料,沒有動力來源,無法驅動智慧AI系統運作。尤其,高品質的數據更是大模型產業化的關鍵要素之一。

在收集上,不僅需要有效地過濾和清洗從網頁、書籍、專業報告論文等各種管道中爬取的原始素材,還需要充分利用模型內測使用者提供的回饋。

不過,要想讓LLM能夠獲取關鍵能力,例如理解、程式設計、邏輯推理,成為真正的「六邊形戰士」,更重要的是自己去建構資料。

在這一方面,學術界的研究也非常活躍,例如微軟「Textbooks Are All You Need」,透過建構資料訓練後的模型phi-1,能夠在基準上取得相對領先優勢。

就上海AI實驗室團隊來說,他們沒有選擇從單點方向去建立數據,而是從「全維度」,對整個知識體系梳理後建構語料。

因此,這些語料在知識和邏輯的密度上,是非常高的。

在大量的常規內容中加入少量的「催化劑」,不僅可以更好地激發出LLM的關鍵能力,而且模型對於相關資訊的吸收和理解也會更強。

用上海AI實驗室領軍科學家林達華的話來說,「從某種意義上來說,這裡的1個token,可以等同於10個,甚至100個傳統token的效力」。

就算力方面,除了網路大廠坐擁著豐富的資源外,開源社群大部分的開發者很難獲得更多的算力。

「希望能夠有輕量級的工具,能夠把模型用起來」。這是上海AI實驗室收到最多的社群回饋。

透過開源XTuner輕量級微調工具,使用者可以在8GB消費級GPU上,用自己的資料就能微調上海AI實驗室開源的模型。

此外,在模型應用方向上,「聊天對話」依舊是模型非常重要的能力的一部分。

上海AI實驗室還想突出一點是,大模型作為中央Hub,使用工具解決問題,類似Code Interpreter的方式去呼叫工具。

同時,在這個過程中,大模型還能進行自我反思,這便是LLM加持下智能體展現的巨大潛力。

林達華認為,Agent會是長期發展非常有價值的需要探索的方向。

最終智能體的世界,整個組織分工也會在不斷的升級和演進,未來肯定是非常多的智能體的共同存在,有各自擅長的領域,相互之間會有很多技術能夠促進它們之間的交易所。

那麼,此次工具鏈具體升級的地方在何處?

– 資料:OpenDataLab開源「書生·萬成交量」預訓練語料

資料上,書生·萬成交量1.0多模態訓練語料8月14日正式開源,資料總量超總量超過2TB,包含了文字資料集、圖文資料集、影片資料集三部分。

透過對高品質語料的「消化」,書生系列模型在語意理解、知識問答、視覺理解、視覺問答等各類生成式任務所展現的優異表現。

截止目前,已經有近10萬的下載量。

– 預訓練:InternLM高效能預訓練框架

預訓練階段,InternLM倉庫也開源了預訓練框架InternLM-Train。

一方面,深度整合了Transformer模型算子,使得訓練效率得到提升,另一方面則提出了獨特的Hybrid Zero技術,實現了計算和通信的高效重疊,訓練過程中的跨節點通信流量大大降低。

由於極致的效能優化,這套開源體系實現了千卡平行運算的高效率,訓練效能達到了業界領先水準。

– 微調:InternLM全參數微調、XTuner輕量級微調

低成本大模型微調工具箱XTuner也在近期開源,支援了Llama等多種開源大模型,以及LoRA、QLoRA等微調演算法。

在硬體需求上,XTuner最低只要8GB顯存,就可以對7B模型進行低成本微調,20B模型的微調也能在24G顯存的消費級顯示卡上完成。

XTuner為各類開源模型提供了多樣的微調框架

– 部署:LMDeploy支援十億到千億參數語言模型的高效推理

部署方面,LMDeploy涵蓋了大型模型的全套輕量化、推理部署和服務解決方案。

它支援了從十億到千億參數的高效模型推理,在吞吐量等性能上超過了社區主流開源專案FasterTransformer,vLLM,Deepspeed等。

– 評測:OpenCompass一站式、全方位大模型評測平台

評測部分,開源的大模型評測平台OpenCompass提供了學科、語言、知識、理解、推理五大構面的評測體系。

同時,它也支援50+評測資料集、30萬個評測題目,支援零樣本、小樣本及思維鏈評測,是目前最全面的開源評測平台。

– 應用:Lagent輕量靈活的智能體框架

在最後的應用環節,上海AI實驗室團隊將重點放在了智能體上,開發並開源了Lagent輕量靈活的智能體框架。

它能夠支援使用者快速地將一個大語言模型轉變為多種類型的智能體,並提供典型工具為大語言模型賦能。

這套開源框架集合了多種類型的智能體能力,包括經典的ReAct、AutoGPT和ReWoo等。

這個框架的程式碼結構不僅清晰,而且簡單。只用不到20行程式碼,開發者就能創造一個屬於自己的智能體。

另外,Lagent支援包括InternLM,Llama,ChatGPT在內的多個大模型。

在Lagent加持下,這些智能體能夠調用大語言模型進行規劃推理和工具調用,並在執行過程中及時進行反思和自我修正。

國內首發16k上下文,200億參數打平Llama2-70B

除了全套的大模型工具鏈外,上海AI實驗室還全新開源了高達200億參數的InternLM-20B。

評測結果顯示,在同量級開源模型中,InternLM-20B是當之無愧的綜合表現最優。

– 超長情境支持

首先,在語境長度上,InternLM-20B可以支援高達16K的上下文視窗。

如下圖所示,InternLM-20B閱讀了某知名咖啡品牌的長新聞後,能夠對三個提問做出準確回答。

對於超長篇的論文和報告,InternLM-20B也能準確地擷取摘要。

例如,輸入經典的ResNet論文後,它立刻寫出了摘要,準確地概括了ResNet的核心思想和實驗效果。

– 呼叫工具,自學成才

其次,在長語境的支持下,模型的能力大大拓展,無論是工具呼叫、程式碼解釋,或是反思修正,都有了更大的空間。而這也成了在InternLM-20B之上打造智能體的關鍵技術。

現在,InternLM-20B不僅可以支援日期、天氣、旅行、運動等數十個方向的內容輸出,以及上萬個不同的API,而且還能過類似Code Interpreter的方式去進行工具的調用。

同時,在這個過程中,它也能進行反思修正,跟著現實場景產生連結。

在清華等機構聯合發布的大模型工具調用評測集ToolBench中,InternLM-20B和ChatGPT相比,達到了63.5%的勝率,在該榜單上取得了最優結果。

而且,InternLM-20B模型還展現出一定的零樣本泛化能力。即使模型在訓練過程中並沒有學過一些工具,它竟然也能根據工具描述和使用者提問來呼叫工具。

如下圖所示,提供它一些AI工具,它就可以自己進行規劃和推理,完成使用者問題。

– 同量級全面領先

在多達50款各個維度的主流評測集上,InternLM-20B也一舉實現了同量級開源模型的綜合性能最優。

同時,在平均成績上也明顯超越了規模更大的Llama-33B,甚至在部分評測中還能小勝Llama2-70B。

具體來說,InternLM-20B在MMLU、C-Eval、AGIEval綜合性學科評測中成績優異,在同量級開源模型中處於領先位置。

尤其是在包含中文學科考試的C-Eval和AGIEval上,表現明顯超過了Llama2-70B。

在考驗事實性知識的評測上,InternLM-20B全面超越了13B模型,並且能與Llama-33B一較高下。

但相較於Llama-65B或Llama2-70B仍有一定差距。

在理解能力構面,InternLM-20B的表現更是突出,全面超越了包含Llama2-70B在內的各級開源模式。

推理,是考倒了不少模型的“攔路虎”,考驗的是大模型真金白銀的本事,也很大程度上決定了模型是否能支撐實際應用。

在下述四個推理測評集上,InternLM-20B的成績都超越了主流的13B開源模型,甚至已經接近了Llama-65B的推理能力。

在程式設計能力上,InternLM-20B也有了顯著提升。在HumanEval和MBPP兩個典型評測集上,接近了Llama2-70B。

註:上述截圖中的粗體為13B-33B量級範圍內,各項最佳成績。

在HuggingFace最新公佈的Open LLM Leaderboard評測榜單上,InternLM-20B在參數量60B以下基模型中平均成績領先,也超過了Llama-65B。

– 更安全的開源模型

最後,在價值對齊上,InternLM-20B也更加完善、更為安全。

如果你向它提出帶有偏見的問題,它就會立刻辨識出其中的不安全因素,給予正確的價值引導。

大模型,從來就不是大廠的專利

大模型浪潮掀起後,我們需要關注的,不僅僅是在測評榜單上拔得頭籌,還有如何讓大模型從“AI皇冠上的明珠”,成為千行百業都可用的“全新生產力”。

縱觀歷史,真正引領時代的技術,不只是顛覆性的創新,更重要的,是做到低成本、低門檻、人人可用。但OpenAI、Google這樣的大廠是絕對不會把其中具體的細節公諸於世。

而這,正是上海AI實驗室的初心之所在。

自6月首發以來,書生·浦語已經完成了多輪升級,在開源社群和產業界產生了廣泛影響。

而且,除了把程式碼在GitHub上開放、把模型放在HuggingFace和魔搭社區,上海AI實驗室甚至每天都會派專人去看社區裡的回饋,對用戶提問悉心解答。

先前,Meta的LLaMA模型開源,引爆了ChatGPT平替狂潮,讓文字大模型迎來了Stable Diffustion時刻。

就如同今日羊駝家族的繁榮生態,上海AI實驗室的開源努力,必將為社區帶來不可估量的價值。

對於全球活躍的開發者和研究者,書生·浦語會提供一個體量適中、但能力非常強的基座。

大部分企業,尤其是中小企業,雖然看到了大模型的趨勢,但是不太可能像大廠一樣花很大代價去購買算力,並且吸引最頂尖的人才。

實際上,從7月6號的人工智慧大會開始,上海AI實驗室就已經在做全鏈條地做開源。例如XTuner能以非常輕量級的方式,讓使用者只用自己的一些數據,就能訓出自己的模型。

不僅如此,一個團隊把開源社群的問題、語料、文件和XTuner模型結合,訓練了一個開源社群客服。這就是對開源社群實打實的貢獻。

甚至,上海AI實驗室把自己的整個科技體系,都分享給了社群(也就是上文提到的全鏈條工具體系)。

全社會如此多的產業,如此多的企業,如此多的機構和研發者,如果能實實在在把大模型的價值落地,將是非常重要的力量。

他們擁有無窮的創造力,唯一缺少的就是資源。

而上海AI實驗室的「雪中送炭」,必然會讓大模型在落地領域發揮出巨大的價值。

正如林達華所言——

作為實驗室,我們能提供基礎模型以及將各行業的know-how融匯成數據、模型能力的一系列工具,並且將它們做得非常易用、教會更多人用,讓它們能在各個行業裡開花結果。

全鏈條工具體系開源鏈結

「書生·萬成交量」預訓練語料:

https://github.com/opendatalab/WanJuan1.0

InternLM預訓練框架:

https://github.com/InternLM/InternLM

XTuner微調工具箱:

https://github.com/InternLM/xtuner

LMDeploy推理工具鏈:

https://github.com/InternLM/lmdeploy

OpenCompas大模式評測平台:

https://github.com/open-compass/opencompass

Lagent智能體框架:

https://github.com/InternLM/lagent

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts