賈佳亞韓松聯合團隊提出大模型微調方法LongLoRA,可輕鬆讓大模型上下文視窗倍增

根據量子位10 月1 日報道,來自香港中文大學和MIT 的賈佳亞韓松聯合團隊提出基於LoRA 的全新大模型微調方法LongLoRA 登上GitHub 熱榜。據悉,此方法只要兩行程式碼+ 11 小時微調,就能把大模型4k 的視窗長度提高到32k。規模上,最長可以擴展到10 萬token,一口氣就能讀完長篇小說的多個章節或中短篇小說。介紹稱,在一台8 個A100 組成的單機上,增大窗口長度的速度比全量微調快數倍。

巴比特訊

Total
0
Shares
Related Posts