10人倆月搞出大模型一年16篇頂會論文加持:市面上做得好的都沒有開源


作者:衡宇

來源:量子位

一家今年5月份成立在深圳的公司,團隊至今不到10人。

他們要做的卻不是小事:挑戰AGI。

底氣在哪?一看過往履歷,二看現在賽道的成績。

這幾個人近一年中,累計在CVPR、ICML、ECCV等頂會上發表16篇大模型相關論文,其中一篇還拿下了頂會ACL 2023的最佳論文提名。

創業後的成績如何?成立兩個月後,所訓模型殺入C-Eval榜單前三,中文能力擊敗ChatGPT和Claude-v1.3。

這就是共生矩陣拿出的成績。

並且旗下模型GS-LLM七月末首次上榜至今,在C-Eval榜單65個上榜選手中,一直處於第一梯隊。

那麼,共生矩陣是誰?

10個人挑戰AGI

共生矩陣,目標立足自研AGI技術,打造行業數據精煉工廠。

團隊所依託的主要是自研大模型GS-LLM。

模型參數規模從7B-130B不等,能根據用戶的實際需求量體裁衣。

在C-Eval上佔據一席之地的有基於GS-LLM的兩個版本,一個是百億參數版本的GS-LLM-Beta,另一個是不足百億規模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是發現不少使用者,原有的運作環境(甚至雲端環境)不足以支撐大體量的本地部署。

測試結果發現,幾十億版本的GS-LLM-Beta就可以發揮不錯的性能,在C-Eval上最好排名達到第6。

能夠常駐C-Eval榜單前列的原因之一,是共生矩陣搭建了一套完全獨立的訓練框架,對整個訓練構成比較完備的技術支撐。

第二個點在數據,這是這家公司格外重視的一點。

共生矩陣CEO張林舉了個簡單的例子:

把模型訓練比作人的成長過程。如果他從小看的都是沒有營養的小說,這個人的總體能力不會太強。

去年團隊在一個實驗中發現,當模型數據達到某一數量級時,數據質量的躍升反而能引起一些質變。

“也就是說,有一個相對小體量(如百億級別)的模型,餵給它高質量的數據,訓練出來的結果和千億級別的結果是很接近的。”張林說。

這個實驗也讓團隊對數據質量、體系化獲取高質量數據途徑的重視再+1。

其實這點近期越來越引起各界注意,微軟就有一項新研究《Textbook are all you need》,工作表示,做大不是唯一的出路,高質量的數據才是至關重要的。

於是乎,共生團隊構建了一套清洗數據的工程化體系,24小時持續清洗數據。

團隊目前清洗出的可以用於訓練的文本數據,大約有20T,“這個量級能夠支撐非常大體系的模型訓練”。

不過張林也透露,短期內共生矩陣不會對外公開團隊清洗出的數據。

那麼,團隊想打造的數據精煉工廠又是什麼概念?

張林解釋,如果把大模型理解為“信息的壓縮”,那麼它本身就是一個體量很大的參數數據庫。

數據精煉工廠要做的事,就是將模型訓練好後的參數數據進行共享和交易。

要知道,大模型的功能是通過參數來承載的,交易參數其實就是切換功能,我們需要大模型功能的多樣性,“參數交易是最高效的路徑”。

這裡指的數據不是大家看得到的那種數據,而是參數數據。我們常說的數據是一段文本、一張圖片,而工廠擁有的數據是模型訓練好的參數,對參數進行商業化交易。

“原始數據直接進行交易,受到量級大、隱私問題等掣肘。”張林解釋,數據交易的概念已經提了很多年了,但並沒有完全被市場接受,團隊認為想要數據真正流通起來,需要更合理、安全、有效,因此最終確定了參數層面的數據交易。

在團隊設想中,數據精煉工廠跑通後,部分數據不用重複訓練,效率提升,成本也可降低。

用更少的人和資源把大模型體係做好

大模型熱潮中,如何評價大模型成為重要問題,這也是各類榜單雨後春筍出現的原因。

共生矩陣上榜C-Eval後,外界聚焦來的目光主要有2點:

除了成績不錯外,另一個惹人關注的點是,他們是榜上少見的小型團隊。

團隊表示,榜單並不是全世界唯一最權威,但成立一個月開始上榜,一度殺進前三,能夠反映“我們用更少的人和資源把大模型體係做好”。

沒錯,共生矩陣團隊只有不足10人。

人不多,但都挺能打——

CEO張林、CTO王軍傑等團隊中的核心都出自IDEA研究院,在國內封神榜預訓練模型開源體系工作中有豐富實戰經驗(據悉,封神榜目前已有超過98個開源預訓練模型)

張林本人博士畢業於美國紐約州立大學,在計算機國際頂會上發表過三十多篇論文,此前是粵港澳大灣區數字經濟研究院(IDEA)資深高級研究員。

王軍傑則是早稻田大學的計算機博士,此前是封神榜大模型團隊的核心成員。

△張林

縱觀當下的AI市場,小團隊搞好AI並不是沒有先例,最負盛名的文生圖模型Midjourney背後,只有11個成員,被稱為新時代組織的標杆。 AI 2.0時代,國內外也出現了諸多講求“小而美”的大模型創業團隊。

當然,張林表示更深層原因,是因為大模型不是簡單堆人力的項目,需要少數精英式團隊以保證效率。

他表示訓練模型時,技術層面如算子優化、混合精度等,以及背後幾百張卡同時支持時通信層面的問題,都非常考驗工程能力。小團隊如果能將遇到的工程性問題解決,提高效率,不必靠大團隊解決。

另外,技術核心小團隊更有利於保持思想獨立性,不墨守成規以探索更多可能性,堆人力反而容易降低整體效率。

據他預估,全國大模型領域頂尖的人才“加起來可能也就100人左右”,也沒什麼組建大團隊的空間。

因此,團隊將在一定時間內保持“不足十人”這個規模。

歸根結底,這是對AI 2.0時代與AI 1.0時代背後範式和理念的理解不同。

交易所過程中,張林還很直接地表達了團隊在另一層面與主流聲音的不同理解,它體現在開閉源理念上。

前段時間,免費可商用的LLaMA-2一出,不少人都表示這對市面上的創業公司將是巨大打擊,因為LLaMA-2可以滿足大多數公司對更低成本和個性化的需求。

“LLaMA-2並沒有改變市場格局。”共生團隊眼中,真正領先的團隊並不會開源核心技術。

張林還補充道在當前階段,開源的意義更多在於教育市場,而非推動商業化。

就像樹莓派對電子發燒友有意義,但不會改變手機電腦市場一樣,LLAMA 2對入門級用戶較有價值,但對要做商業化的用戶影響不大。

像這樣帶點“非主流”的觀點和理解,共生矩陣還有不少。

比如不認為大模型就是通用AI的終點,也不認為ChatGPT代表終極方向

他們對獨角獸式快速擴張也持謹慎態度,更重視團隊凝聚和技術積澱。

……

對於未來的發展路線,共生矩陣選擇短期內先閉源,未來在合適的機遇下可能適當開源。

開源需要有明確的商業驅動目標,當前大模型技術仍處於快速迭代和競爭階段,開源核心技術有喪失先發優勢的風險。

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts