來源:量子位
從Meta的LLaMA發展出的羊駝家族一系列大模型,已成為開源AI重要力量。
但LLamA開源了又沒全開,只能用於研究用途,還得填申請表格等,也一直被業界詬病。
好消息是,兩大對標LLaMA的完全開源項目同時有了新進展。
可商用開源大模型來了,還一下來了倆:
MosaicML推出MPT系列模型,其中70億參數版在性能測試中與LLaMA打個平手。
Together的RedPajama(紅睡衣)系列模型,30億參數版在RTX2070遊戲顯卡上就能跑。
對於這些進展,特斯拉前AI主管Andrej Karpathy認為,開源大模型生態有了寒武紀大爆發的早期跡象。
MPT,與LLaMA五五開
MPT系列模型,全稱MosaicML Pretrained Transformer,基礎版本為70億參數。
MPT在大量數據(1T tokens)上訓練,與LLaMA相當,高於StableLM,Pythia等其他開源模型。
支持84k tokens超長輸入,並用FlashAttention和FasterTransformer方法針對訓練和推理速度做過優化。
在各類性能評估中,與原版LLaMA不相上下。
除了MPT-7B Base基礎模型外還有三個變體。
MPT-7B-Instruct,用於遵循簡短指令。
MPT-7B-Chat,用於多輪聊天對話。
MPT-7B-StoryWriter-65k+,用於閱讀和編寫故事,支持65k tokens的超長上下文,用小說數據集微調。
MosaicML由前英特爾AI芯片項目Nervana負責人Naveen Rao創辦。
該公司致力於降低訓練神經網絡的成本,推出的文本和圖像生成推理服務成本只有OpenAI的1/15。
RedPajama,2070就能跑
RedPajama系列模型,在5TB的同名開源數據上訓練而來(前面提到的MPT也是用此數據集訓練)。
除70億參數基礎模型外,還有一個30億參數版本,可以在5年前發售的RTX2070遊戲顯卡上運行。
目前70億版本完成了80%的訓練,效果已經超過了同規模的Pythia等開源模型,略遜於LLamA。
預計在完成1T tokens的訓練後還能繼續改進。
背後公司Together,由蘋果前高管Vipul Ved Prakash,斯坦福大模型研究中心主任Percy Liang,蘇黎世聯邦理工大學助理教授張策等人聯合創辦。
開源模型發布後,他們的近期目標是繼續擴展開源RedPajama數據集到兩倍規模。
One More Thing
來自南美洲的無峰駝類動物一共4種,已被各家大模型用完了。
Meta發布LLaMA之後,斯坦福用了Alpaca,伯克利等單位用了Alpaca,Joseph Cheung等開發者團隊用了Guanaco。
以至於後來者已經成交量到了其他相近動物,比如IBM的單峰駱駝Dromedary,Databricks的Dolly來自克隆羊多莉。
國人研究團隊也熱衷於用古代傳說中的神獸,如UCSD聯合中山大學等推出的白澤。
港中文等推出的鳳凰……
最絕的是哈工大基於中文醫學知識的LLaMA微調模型,命名為華駝。
參考鏈接:
[1] https://www.mosaicml.com/blog/mpt-7b
[2]https://www.together.xyz/blog/redpajama-models-v1
[3]https://twitter.com/karpathy/status/1654892810590650376?s=20
資訊來源:由0x資訊編譯自8BTC。版權歸作者所有,未經許可,不得轉載