微軟發表27 億參數語言模型Phi-2,效能可媲美或優於比它大25 倍的模型

AI 新智界訊,12 月13 日,微軟發布27 億參數的語言模型—Phi-2。據介紹,由於在模型縮放和訓練資料整理方面進行了創新,在複雜的基準測試中,Phi-2 的性能可媲美或優於比它大25 倍的模型。據悉,Phi-2 是一個基於Transformer 的模型,在1.4 T 的詞塊上進行了訓練,這些詞塊來自NLP 和編碼的合成資料集和網路資料集。在96 個A100 GPU 上對Phi-2 的訓練耗時14 天。 Phi-2 是一個基礎模型,沒有透過人體回饋強化學習(RLHF)進行調整,也沒有經過指導性微調。儘管如此,與經過對齊的現有開源模型相比,Phi-2 在毒性和偏差方面有更好的表現。在各種綜合基準測試中,Phi-2 超越了Mistral 和Llama-2 模型在70 億和130 億參數下的效能。值得注意的是,在多步驟推理任務(即編碼和數學)上,Phi-2 的表現是Llama-2-70 B 模型的25 倍。此外,Phi-2 的性能與最近發布的Google Gemini Nano 2 不相上下,甚至更勝一籌。

Total
0
Shares
Related Posts