微軟、清華和中國科學院大學共同推出專為大語言模式設計的BitNet 架構

根據品玩10 月19 日報道,Arxiv 頁面顯示,微軟研究院聯手中國科學院大學、清華大學共同發布論文,公佈了一款可擴展且穩定的1 位Transformer 架構BitNet 架構。 BitNet 專為大語言模型設計。研究團隊表示,為了訓練1 位權重,團隊引進了BitLinear 作為nn.Linear 層的替代品。實驗結果顯示,BitNet 在語言建模任務上實現了競爭力的效能,同時顯著減少了記憶體佔用和能源消耗。

巴比特訊

Total
0
Shares
Related Posts