6月15日,搜狗創始人王小川於今年4月創辦的百川智能,發布了首個大模型成果baichuan-7B。 70億的參數量,開源可商用,王小川和百川智能又憑實力上了次熱搜。回想今年首次召開媒體見面會時,王小川對自家的百川大模型就極為自信,“年底爭取發布國內最好的大模型”的話,在外界聽來更像吹牛,特別是當時距離文心一言的亮相還只有半個月。
短短兩個多月過去了,百川此次發布的baichuan-7B足夠讓很多人閉嘴,雖然最近的大模型令人眼花繚亂,宛如走馬燈般“你方唱罷我登場”。 baichuan-7B不僅在C-Eval、AGIEval和Gaokao中文權威評測榜單上,以顯著優勢全面超過了ChatGLM-6B等其他大模型,並且在MMLU英文權威評測榜單上,也領先LLaMA-7B很多。目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台發布。
一、當之無愧的7B
雖然大模型的好壞評價,各家企業至今尚未形成共識,但榜單跑分仍然是驗證大模型能力相當重要的一個辦法,而且此次baichuan-7B的表現也的確稱得上令人印象深刻。在三個最具影響力的中文評估標準中,baichuan-7B在同等參數量級大模型中的綜合評分十分引人注目:
1. 由微軟研究院發起的評測標準AGI Eval中,baichuan-7B綜合評分34.4,在國內的高考、司法考試、SAT、LSAT、GRE等考試中表現出色,比LLaMa-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等不少競爭對手都要領先;
2. 在英國愛丁堡大學、清華、上交三個頂級院校聯合創建的C-Eval大模型評測體系下,baichuan-7B的發揮同樣值得稱道。在覆蓋52個學科的測評中,baichuan-7B最終獲評34.4分,在同量級產品中排名第一;
3. 復旦大學研究團隊所創建的GAOKAO評測框架中,這個評測以國內各地的高考題為主,baichuan-7B在高考題目上的表現同樣驚艷,不僅評分在同參數量級的模型中獨占鰲頭,而且第二名與之相比的差距近8分。
值得關注的是,在這次跑分中,baichuan-7B的表現甚至比一些參數量級更大的模型都要好,其中不乏一些參數比baichuan-7B高數倍的。在榜單上,比起130億參數的GLM-130B上個月的評測結果, baichuan-7B的綜合評分也僅比它低了1.2分。雖然在三個中文評測榜單上都名列前茅,而baichuan-7B卻沒有偏科,是個通才。在由美國諸多名校聯合劃定的MMLU英文評估基准上,baichuan-7B的得分也超過了多名先發者,包括ChatGLM-6B,LLaMA-7B等開源模型,在英文跨學科專業能力上同樣可圈可點。
排行榜網址:https://cevalbenchmark.com/static/leaderboard_zh.html
二、獨門秘籍
baichuan-7B的成績斐然,離不開百川智能在幕後的艱苦努力,雖然外界很多時候都更關注大模型的侃侃而談。概括說來,百川智能的方法有以下幾個:
1. 構建大規模且高質量的語料庫。為了保證語料質量,百川智能使用了質量模型對數據打分,以保證對原始數據集的層層篩選,甚至是精確到“篇章級”,“句子級”;而在語料多樣性方面,百川智能則專門為此研發了“超大規模局部敏感哈希聚類系統和語義聚類系統”,以完成對數據的多層次、多粒度聚類。經過這套雙管齊下的努力加持,baichuan-7B,名義上是有70億參數量級的大模型,但是背後還包含1.2萬億Token的高質量訓練數據集,正所謂“重劍無鋒,大巧不工”。
2. 強化訓練效率。訓練效率之於大模型,恰如學習方法之於考生,只有掌握了正確方法才可能事半功倍,否則往往會適得其反。距離百川智能成立僅寥寥數月,baichuan-7B能有現在的出彩表現,高效率的訓練絕對是不能忽視的一個原因。據一些媒體報導,baichuan-7B深度整合了模型機制來加快計算流程,並針對任務負載和集群配置,自適應優化了模型並行策略以及重計算策略。通過高效的訓練過程調度通信,baichuan-7B成功實現了計算與通信的高效重疊,進而達到了超線性的訓練加速,在千卡集群上,訓練吞吐量能達到180+的每秒浮點運算次數。同時,通過更好的訓練流程設計和超參數選擇,baichuan-7B的收斂速度也獲得了明顯改善,也就讓其在困惑度(PPL)和訓練損失(training loss)的表現上非常優秀。
3. 優化算法。算法可以類比為人的天賦,在很多時候,努力決定下限,天賦決定上限。此次baichuan-7B的算法優化,主要體現在更大的窗口長度上。為了能讓大模型在訓練和推理階段捕捉更多的上下文信息,以更好的完成一些長文本任務,大模型能力受窗口長度的製約頗為明顯。而基於高效的注意力機制優化,百川智能實現了“萬級”的超長動態窗口擴張能力。兩倍於現有開源模型的窗口長度,baichuan-7B把這個參數升級到了4k,理解能力相比過去有了巨大的提升。
概括一下百川智能的秘籍,就是更優質、更多樣、更大規模的數據,更高效且收斂的訓練,再輔以更強的上下文理解能力,因此baichuan-7B能有現在的搶眼表現絕非偶然。
地址:https://github.com/baichuan-inc/baichuan-7B/blob/main/README.md
三、海納百川,百川戰略
自王小川今年4月創辦百川智能,進入大模型賽道以來,“海納百川”就是他秉持的核心精神。也正因如此,baichuan-7B選擇開源完全是意料之中。代碼採用的是Apache-2.0協議,模型權重採用了免費商用協議,因此baichuan-7B如同一本打開的字典或辭海,開放給社會各界來使用,當然也包括商業領域或商業化用途。此外,baichuan-7B還開放了推理代碼、INT4量化實現、微調代碼,以及預訓練模型的權重。這對幫助用戶實現模型調優、降低成本應用部署,吸引新粉絲入局,以及其他研究者調用baichuan-7B完成自己的研究都有很大的助力,無形中也延長了baichuan-7B的產品壽命。開源也讓baichuan-7B獲得了清華和北大的青睞。據披露,兩所高校均已表示,預計在未來與百川智能深入合作,來一起推動baichuan-7B的應用和發展。
面對baichuan-7B的亮眼表現,讓人不由得有些懷疑王小川當時說的“年底爭取做國內最好大模型”,可能真的不是豪言壯語。而這次成功的亮相,也讓百川智能,乃至國內整個大模型業界都看到了新鮮的動力和希望。百川智能的此次首秀雖然亮眼但絕非終點,之後王小川的每一步都相當值得期待。
與王小川的驚艷首秀形成對比的,起步更早的“美團二王”,王慧文與王興,最近幾個月都沒有什麼動靜,要知道當初“光年之外”引起的關注度可比百川智能只多不少的。毫無疑問,此番百川智能和baichuan-7B的後發先至以及出色表現,“二王”不可能不知道,但二人的社交平台上皆毫無反應。或許可以說他們也在專注於自己的大模型,亦或者也可以認為他們的內心已經拉響了“紅色警報”。不論怎樣,說現在的他們毫無壓力,你相信嗎?
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載