Meta AI 研究人員提出長語境LLM:超越GPT-3.5-Turbo-16k 的效能

根據MarkTechPost 10 月7 日報道,Meta AI 研究人員提出了一種建構長語境LLM 的方法,這種方法優於所有現有的開源模型。此方法圍繞著LLAMA2 檢查點進行持續的預訓練,並利用額外的4000 億個token 形成廣泛的訓練序列。這些序列旨在捕捉長語境理解的本質。此外,這項工作提供了一系列模型變體,包括使用32,768 個token 序列訓練的較小的7B/13B 模型和使用16,384 個token 序列訓練的較大的34B/70B 模型。與研究基準上的LLAMA 2 相比,該方法在長語境任務中取得了顯著改進,而在標準短語境任務中則略有提高。這些改進在編碼、數學問題解決和知識相關任務中尤其明顯。此外,該團隊還探索了一種簡單而經濟高效的程序,用於在沒有人類標註資料的情況下對持續預訓練的長模型進行指令微調。結果是,在一系列長語境基準測試中,聊天模型的表現超過了gpt-3.5-turbo-16k 模型。

Total
0
Shares
Related Posts