兩大可商用開源大模型同時發布性能不輸LLaMA，羊駝家族名字都不夠用了

來源：量子位

從Meta的LLaMA發展出的羊駝家族一系列大模型，已成為開源AI重要力量。

但LLamA開源了又沒全開，只能用於研究用途，還得填申請表格等，也一直被業界詬病。

好消息是，兩大對標LLaMA的完全開源項目同時有了新進展。

可商用開源大模型來了，還一下來了倆：

MosaicML推出MPT系列模型，其中70億參數版在性能測試中與LLaMA打個平手。

Together的RedPajama（紅睡衣）系列模型，30億參數版在RTX2070遊戲顯卡上就能跑。

對於這些進展，特斯拉前AI主管Andrej Karpathy認為，開源大模型生態有了寒武紀大爆發的早期跡象。

MPT，與LLaMA五五開

MPT系列模型，全稱MosaicML Pretrained Transformer，基礎版本為70億參數。

MPT在大量數據（1T tokens）上訓練，與LLaMA相當，高於StableLM，Pythia等其他開源模型。

支持84k tokens超長輸入，並用FlashAttention和FasterTransformer方法針對訓練和推理速度做過優化。

在各類性能評估中，與原版LLaMA不相上下。

除了MPT-7B Base基礎模型外還有三個變體。

MPT-7B-Instruct，用於遵循簡短指令。

MPT-7B-Chat，用於多輪聊天對話。

MPT-7B-StoryWriter-65k+，用於閱讀和編寫故事，支持65k tokens的超長上下文，用小說數據集微調。

MosaicML由前英特爾AI芯片項目Nervana負責人Naveen Rao創辦。

該公司致力於降低訓練神經網絡的成本，推出的文本和圖像生成推理服務成本只有OpenAI的1/15。

RedPajama，2070就能跑

RedPajama系列模型，在5TB的同名開源數據上訓練而來（前面提到的MPT也是用此數據集訓練）。

除70億參數基礎模型外，還有一個30億參數版本，可以在5年前發售的RTX2070遊戲顯卡上運行。

目前70億版本完成了80%的訓練，效果已經超過了同規模的Pythia等開源模型，略遜於LLamA。

預計在完成1T tokens的訓練後還能繼續改進。

背後公司Together，由蘋果前高管Vipul Ved Prakash，斯坦福大模型研究中心主任Percy Liang，蘇黎世聯邦理工大學助理教授張策等人聯合創辦。

開源模型發布後，他們的近期目標是繼續擴展開源RedPajama數據集到兩倍規模。

One More Thing

來自南美洲的無峰駝類動物一共4種，已被各家大模型用完了。

Meta發布LLaMA之後，斯坦福用了Alpaca，伯克利等單位用了Alpaca，Joseph Cheung等開發者團隊用了Guanaco。

以至於後來者已經成交量到了其他相近動物，比如IBM的單峰駱駝Dromedary，Databricks的Dolly來自克隆羊多莉。

國人研究團隊也熱衷於用古代傳說中的神獸，如UCSD聯合中山大學等推出的白澤。

港中文等推出的鳳凰……

最絕的是哈工大基於中文醫學知識的LLaMA微調模型，命名為華駝。

參考鏈接：

[1] https://www.mosaicml.com/blog/mpt-7b

[2]https://www.together.xyz/blog/redpajama-models-v1

[3]https://twitter.com/karpathy/status/1654892810590650376?s=20

資訊來源：由0x資訊編譯自8BTC。版權歸作者所有，未經許可，不得轉載

兩大可商用開源大模型同時發布性能不輸LLaMA，羊駝家族名字都不夠用了

X Layer完成PP升級並啟動OKB Gas Token經濟模型優化

Coinbase重新啟動Stablecoin Bootstrap基金以提升USDC流動性

4E：ETH市值超越Netflix，Circle擬出售1000萬股股票

2025年Web3項目如何借助去中心化社交媒體進行有效營銷？

Lumiwave主網：激動人心的2026年第一季度發射，將革新IP區塊鏈

DeFi Technologies披露股權和存管不平衡問題，或將上報監管升級審查

專家解析為何XRP不符合ISO20022標準

特朗普現在告訴美國最大的銀行向首席經濟學家解僱“不討人喜歡”的預測

兩大可商用開源大模型同時發布性能不輸LLaMA，羊駝家族名字都不夠用了

Related Posts