10人倆月搞出大模型一年16篇頂會論文加持：市面上做得好的都沒有開源

作者：衡宇

來源：量子位

一家今年5月份成立在深圳的公司，團隊至今不到10人。

他們要做的卻不是小事：挑戰AGI。

底氣在哪？一看過往履歷，二看現在賽道的成績。

這幾個人近一年中，累計在CVPR、ICML、ECCV等頂會上發表16篇大模型相關論文，其中一篇還拿下了頂會ACL 2023的最佳論文提名。

創業後的成績如何？成立兩個月後，所訓模型殺入C-Eval榜單前三，中文能力擊敗ChatGPT和Claude-v1.3。

這就是共生矩陣拿出的成績。

並且旗下模型GS-LLM七月末首次上榜至今，在C-Eval榜單65個上榜選手中，一直處於第一梯隊。

那麼，共生矩陣是誰？

10個人挑戰AGI

共生矩陣，目標立足自研AGI技術，打造行業數據精煉工廠。

團隊所依託的主要是自研大模型GS-LLM。

模型參數規模從7B-130B不等，能根據用戶的實際需求量體裁衣。

在C-Eval上佔據一席之地的有基於GS-LLM的兩個版本，一個是百億參數版本的GS-LLM-Beta，另一個是不足百億規模的mini版本GS-LLM-Beta-Mini。

推出mini版本的原因是發現不少使用者，原有的運作環境（甚至雲端環境）不足以支撐大體量的本地部署。

測試結果發現，幾十億版本的GS-LLM-Beta就可以發揮不錯的性能，在C-Eval上最好排名達到第6。

能夠常駐C-Eval榜單前列的原因之一，是共生矩陣搭建了一套完全獨立的訓練框架，對整個訓練構成比較完備的技術支撐。

第二個點在數據，這是這家公司格外重視的一點。

共生矩陣CEO張林舉了個簡單的例子：

把模型訓練比作人的成長過程。如果他從小看的都是沒有營養的小說，這個人的總體能力不會太強。

去年團隊在一個實驗中發現，當模型數據達到某一數量級時，數據質量的躍升反而能引起一些質變。

“也就是說，有一個相對小體量（如百億級別）的模型，餵給它高質量的數據，訓練出來的結果和千億級別的結果是很接近的。”張林說。

這個實驗也讓團隊對數據質量、體系化獲取高質量數據途徑的重視再+1。

其實這點近期越來越引起各界注意，微軟就有一項新研究《Textbook are all you need》，工作表示，做大不是唯一的出路，高質量的數據才是至關重要的。

於是乎，共生團隊構建了一套清洗數據的工程化體系，24小時持續清洗數據。

團隊目前清洗出的可以用於訓練的文本數據，大約有20T，“這個量級能夠支撐非常大體系的模型訓練”。

不過張林也透露，短期內共生矩陣不會對外公開團隊清洗出的數據。

那麼，團隊想打造的數據精煉工廠又是什麼概念？

張林解釋，如果把大模型理解為“信息的壓縮”，那麼它本身就是一個體量很大的參數數據庫。

數據精煉工廠要做的事，就是將模型訓練好後的參數數據進行共享和交易。

要知道，大模型的功能是通過參數來承載的，交易參數其實就是切換功能，我們需要大模型功能的多樣性，“參數交易是最高效的路徑”。

這裡指的數據不是大家看得到的那種數據，而是參數數據。我們常說的數據是一段文本、一張圖片，而工廠擁有的數據是模型訓練好的參數，對參數進行商業化交易。

“原始數據直接進行交易，受到量級大、隱私問題等掣肘。”張林解釋，數據交易的概念已經提了很多年了，但並沒有完全被市場接受，團隊認為想要數據真正流通起來，需要更合理、安全、有效，因此最終確定了參數層面的數據交易。

在團隊設想中，數據精煉工廠跑通後，部分數據不用重複訓練，效率提升，成本也可降低。

用更少的人和資源把大模型體係做好

大模型熱潮中，如何評價大模型成為重要問題，這也是各類榜單雨後春筍出現的原因。

共生矩陣上榜C-Eval後，外界聚焦來的目光主要有2點：

除了成績不錯外，另一個惹人關注的點是，他們是榜上少見的小型團隊。

團隊表示，榜單並不是全世界唯一最權威，但成立一個月開始上榜，一度殺進前三，能夠反映“我們用更少的人和資源把大模型體係做好”。

沒錯，共生矩陣團隊只有不足10人。

人不多，但都挺能打——

CEO張林、CTO王軍傑等團隊中的核心都出自IDEA研究院，在國內封神榜預訓練模型開源體系工作中有豐富實戰經驗（據悉，封神榜目前已有超過98個開源預訓練模型）

張林本人博士畢業於美國紐約州立大學，在計算機國際頂會上發表過三十多篇論文，此前是粵港澳大灣區數字經濟研究院（IDEA）資深高級研究員。

王軍傑則是早稻田大學的計算機博士，此前是封神榜大模型團隊的核心成員。

△張林

縱觀當下的AI市場，小團隊搞好AI並不是沒有先例，最負盛名的文生圖模型Midjourney背後，只有11個成員，被稱為新時代組織的標杆。 AI 2.0時代，國內外也出現了諸多講求“小而美”的大模型創業團隊。

當然，張林表示更深層原因，是因為大模型不是簡單堆人力的項目，需要少數精英式團隊以保證效率。

他表示訓練模型時，技術層面如算子優化、混合精度等，以及背後幾百張卡同時支持時通信層面的問題，都非常考驗工程能力。小團隊如果能將遇到的工程性問題解決，提高效率，不必靠大團隊解決。

另外，技術核心小團隊更有利於保持思想獨立性，不墨守成規以探索更多可能性，堆人力反而容易降低整體效率。

據他預估，全國大模型領域頂尖的人才“加起來可能也就100人左右”，也沒什麼組建大團隊的空間。

因此，團隊將在一定時間內保持“不足十人”這個規模。

歸根結底，這是對AI 2.0時代與AI 1.0時代背後範式和理念的理解不同。

交易所過程中，張林還很直接地表達了團隊在另一層面與主流聲音的不同理解，它體現在開閉源理念上。

前段時間，免費可商用的LLaMA-2一出，不少人都表示這對市面上的創業公司將是巨大打擊，因為LLaMA-2可以滿足大多數公司對更低成本和個性化的需求。

“LLaMA-2並沒有改變市場格局。”共生團隊眼中，真正領先的團隊並不會開源核心技術。

張林還補充道在當前階段，開源的意義更多在於教育市場，而非推動商業化。

就像樹莓派對電子發燒友有意義，但不會改變手機電腦市場一樣，LLAMA 2對入門級用戶較有價值,但對要做商業化的用戶影響不大。

像這樣帶點“非主流”的觀點和理解，共生矩陣還有不少。

比如不認為大模型就是通用AI的終點，也不認為ChatGPT代表終極方向

他們對獨角獸式快速擴張也持謹慎態度，更重視團隊凝聚和技術積澱。

……

對於未來的發展路線，共生矩陣選擇短期內先閉源，未來在合適的機遇下可能適當開源。

開源需要有明確的商業驅動目標,當前大模型技術仍處於快速迭代和競爭階段，開源核心技術有喪失先發優勢的風險。

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

10人倆月搞出大模型一年16篇頂會論文加持：市面上做得好的都沒有開源

以太坊靜候，仍在記錄的門口

BNB、XRP及Avax的價格目標與技術分析

Google在雙子座中推出“個人上下文”和臨時聊天功能，提升對話相關性與隱私保護

以太坊ETF每日交易額達到7.29億美元

分析師預測，2025年9月前XRP將超越以太坊，成為領先的加密貨幣

以太坊在歷史高點後將如何發展？

美國抵押貸款利率下降，達到自去年10月以來的最低水平

Chainlink價格一周內飆升44% – 是否迎來第二輪爆發？

10人倆月搞出大模型一年16篇頂會論文加持：市面上做得好的都沒有開源

Related Posts