兩大可商用開源大模型同時發布性能不輸LLaMA,羊駝家族名字都不夠用了


來源:量子位

從Meta的LLaMA發展出的羊駝家族一系列大模型,已成為開源AI重要力量。

但LLamA開源了又沒全開,只能用於研究用途,還得填申請表格等,也一直被業界詬病。

好消息是,兩大對標LLaMA的完全開源項目同時有了新進展。

可商用開源大模型來了,還一下來了倆:

MosaicML推出MPT系列模型,其中70億參數版在性能測試中與LLaMA打個平手。

Together的RedPajama(紅睡衣)系列模型,30億參數版在RTX2070遊戲顯卡上就能跑。

對於這些進展,特斯拉前AI主管Andrej Karpathy認為,開源大模型生態有了寒武紀大爆發的早期跡象。

MPT,與LLaMA五五開

MPT系列模型,全稱MosaicML Pretrained Transformer,基礎版本為70億參數。

MPT在大量數據(1T tokens)上訓練,與LLaMA相當,高於StableLM,Pythia等其他開源模型。

支持84k tokens超長輸入,並用FlashAttention和FasterTransformer方法針對訓練和推理速度做過優化。

在各類性能評估中,與原版LLaMA不相上下。

除了MPT-7B Base基礎模型外還有三個變體。

MPT-7B-Instruct,用於遵循簡短指令。

MPT-7B-Chat,用於多輪聊天對話。

MPT-7B-StoryWriter-65k+,用於閱讀和編寫故事,支持65k tokens的超長上下文,用小說數據集微調。

MosaicML由前英特爾AI芯片項目Nervana負責人Naveen Rao創辦。

該公司致力於降低訓練神經網絡的成本,推出的文本和圖像生成推理服務成本只有OpenAI的1/15。

RedPajama,2070就能跑

RedPajama系列模型,在5TB的同名開源數據上訓練而來(前面提到的MPT也是用此數據集訓練)。

除70億參數基礎模型外,還有一個30億參數版本,可以在5年前發售的RTX2070遊戲顯卡上運行。

目前70億版本完成了80%的訓練,效果已經超過了同規模的Pythia等開源模型,略遜於LLamA。

預計在完成1T tokens的訓練後還能繼續改進。

背後公司Together,由蘋果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,蘇黎世聯邦理工大學助理教授張策等人聯合創辦。

開源模型發布後,他們的近期目標是繼續擴展開源RedPajama數據集到兩倍規模。

One More Thing

來自南美洲的無峰駝類動物一共4種,已被各家大模型用完了。

Meta發布LLaMA之後,斯坦福用了Alpaca,伯克利等單位用了Alpaca,Joseph Cheung等開發者團隊用了Guanaco。

以至於後來者已經成交量到了其他相近動物,比如IBM的單峰駱駝Dromedary,Databricks的Dolly來自克隆羊多莉。

國人研究團隊也熱衷於用古代傳說中的神獸,如UCSD聯合中山大學等推出的白澤。

港中文等推出的鳳凰……

最絕的是哈工大基於中文醫學知識的LLaMA微調模型,命名為華駝。

參考鏈接:

[1] https://www.mosaicml.com/blog/mpt-7b

[2]https://www.together.xyz/blog/redpajama-models-v1

[3]https://twitter.com/karpathy/status/1654892810590650376?s=20

資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載

Total
0
Shares
Related Posts