LongLoRA:超長上下文,大語言模型高效微調方法


原創:AIGC開放社區

麻省理工學院和香港中文大學聯合發布了LongLoRA,這是一種全新的微調方法,可以增強大語言模型的上下文能力,而無需消耗大量算力資源。

通常,想增加大語言模型的上下文處理能力,需要更多的算力支持。例如,將上下文長度從2048擴展至8192,需要多消耗16倍算力。

LongLoRA在開源模型LLaMA2 7B/13B/70B上進行了試驗,將上下文原始長度擴展至32K、64K、100K,所需的算力資源卻很少。

開源位址:https://github.com/dvlab-research/LongLoRA

論文網址:https://arxiv.org/abs/2309.12307

LongLoRA的高效能微調方法

根據LongLoRA的論文介紹,採用了兩大步驟完成了高效微調。第一,在訓練期間使用一種更簡單的注意力形式(聚焦於特定訊息),開發者稱之為轉變短注意力(S2-Attn)。

這種新的注意力方法有助於節省大量的運算能力,而且幾乎與常規的注意力方法一樣有效,在訓練過程中發揮了重要作用。

第二,重新挖礦了一種有效擴大上下文(用於訓練的資訊量)的方法。開發人員發現,一種名為LoRA的方法對此非常有效,尤其是當與可訓練的嵌入和規範化一起使用時。

LongLoRA在各種任務上都顯示出了優異的結果,可以與不同大小的LLMs一起使用。它可以將用於訓練的資料量從4k增加到100k,對於另一個模型,可以增加到32k,所有這些都在一台強大的電腦機器上完成。此外,它與其他現有技術相容性很強,並不會改變原始模型設計架構。

此外,為了讓LongLoRA 更加實用、高效,開發者還整理了一個名為LongQA 的資料集,其中包含3000 多對用於訓練的問題和答案。這使得LongLoRA 還能有效改善大語言模式的輸出能力。

研究發現

該研究評估了Proof-pile 和PG19資料集上的不同模型。研究發現,在訓練過程中,隨著上下文大小的增加,模型的表現更好,顯示了其微調方法的有效性。

簡單來說,使用更多資訊進行訓練,將會帶來更好的結果。例如,當上下文視窗大小從8192 增加到32768 時,一個模型的困惑度效能從2.72 提高到2.50。

該研究也探討了這些模型可以在一台機器上處理多少情境。開發人員擴展了模型以處理極長的上下文,並發現模型仍然表現良好,儘管上下文尺寸較小時性能有所下跌。

除了語言建模之外,研究還測試了其他任務,包括在很長的對話中找到特定的主題。開發人員的模型在這項任務中的表現與最先進的模型類似,甚至在某些情況下表現得更好。值得一提的是,與競爭對手相比,開發人員的模型能夠更有效地適應開源資料。

LongLoRA表明,大模型能夠處理的資訊越多,理解語言的能力就越強。而且它不僅擅長處理長文本,而且LongLoRA也非常擅長在長對話中找到特定的主題。這表明它可以處理現實世界中複雜而混亂的任務。

但因為加大了上下文窗口,所以LongLoRA在處理較短的文本片段時會有一些問題,這個問題作者還沒有找到原因。

總體來說,LongLoRA 在大型語言模型領域提出了創新方法,在處理大量資訊時,也可以更輕鬆、更有效率地微調這些模型,而必須消耗更多的算力資源。

本文素材來源LongLoRA論文,如有侵權請聯絡刪

資訊來源:由0x資訊編譯自8BTC。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts