據品玩9 月5 日報導,Nous Research 聯手EleutherAI 實驗室以及瑞士日內瓦大學的研究者發表論文,公佈了一項名為YaRN 的方法,可擴展大模型上下文窗口。論文顯示,和傳統方法相比,YaRN 需要更少的標記和訓練步驟。利用這種方法,LLaMA 模型可以有效地利用和外推到比其原始預訓練所允許的上下文長度更長的上下文,同時超過了過去窗口擴展的最新技術水平。據GitHub 頁面顯示,使用YaRN 進行微調的LLaMA 2 7B/13B 上下文窗口分別可達到64k 和128k。
巴比特訊