新的LLM 優化技術可將記憶體使用量降低至四分之一


NAMM

東京人工智慧新創公司Sakana 的研究人員開發了一種新技術,使語言模型能夠更有效地使用內存,幫助企業降低大型語言模型(LLM) 和其他基於Transformer 模型的應用程式的開發成本。一種稱為「通用變壓器記憶」的技術使用特殊的神經網路來優化法學碩士,同時保留重要的資訊並丟棄上下文中不必要的細節。

變壓器記憶體優化

Transformer 模型構成了LLM 的支柱,其回應取決於其「上下文視窗」的內容,也就是它們從使用者接收的輸入內容。
上下文視窗可以被認為是模型的工作記憶。微調上下文視窗的內容可以對模型的效能產生巨大的影響,這催生了「即時工程」的整個領域。

目前模型支援非常長的上下文窗口,其中包含數十萬甚至數百萬個標記(LLM 中單字、單字部分、短語、概念以及用戶在幫助中輸入的數字的數字表示)。

這允許用戶將更多資訊塞入提示中。然而,較長的條目可能會導致較高的計算成本和較慢的效能。優化提示以刪除不必要的標記,同時保留重要資訊可以降低成本並提高速度。目前的提示最佳化技術是資源密集型的,或者需要使用者手動測試不同的配置以減少提示的大小。

神經注意力記憶模組

Universal Transformer Memory 使用神經注意力記憶模型(NAMM) 來最佳化提示。它使用簡單的神經網路來完成此操作,該神經網路決定是「記住」還是「忘記」儲存在LLM 記憶體中的每個給定標記。

「這項新功能允許變壓器丟棄無用或不必要的細節。他們還關注最關鍵的信息,我們認為這些信息對於需要長期情境思考的任務至關重要。」– 寫給研究人員。

NAMM

NAMM 與LLM 分開訓練,並在推理時與預訓練模型結合,使其靈活且易於應用。同時,他們需要存取模型的內部啟動。這意味著它們只能應用於開源模型。

與Sakana AI 開發的其他技術一樣,NAMM 使用演化演算法而不是基於梯度的最佳化方法進行訓練。演化演算法透過迭代變異和試誤選擇性能最佳的模型來優化NAMM 的效率和性能。這一點尤其重要,因為NAMM 試圖實現一個不可微分的目標:保留或丟棄代幣。

NAMM 在LLM 的注意力層上運行,LLM 是Transformer 架構的關鍵元件,它定義了模型上下文視窗中每個標記的關係和重要性。根據注意力值,NAMM 決定從LLM 上下文視窗中保留哪些標記以及丟棄哪些標記。這種基於注意力的機制允許我們在不同的模型上使用經過訓練的NAMM,而無需進一步修改。例如,在純文字資料上訓練的NAMM 可以應用於視覺或多模式模型,而無需額外訓練。

行動中的通用記憶

為了測試通用變壓器記憶概念的實際應用,研究人員在開源Meta Llama 3-8B 模型上訓練了NAMM。他們的實驗表明,基於Transformer 的NAMM 模型在自然語言和超長序列的編碼問題上表現更好。同時,透過丟棄不必要的令牌,NAMM 使LLM 模型在執行任務時節省高達75% 的快取記憶體。

NAMM

該模型在Llama 70B 變體以及專為其他模式和任務設計的Transformer 模型上進行了測試,例如Llava(電腦視覺)和Decision Transformer(強化學習)。

「即使在這些非分散式環境中,NAMM 透過丟棄冗餘視訊影像和次優操作等標記來保留其優勢。這使得新的基礎模型能夠專注於最相關的信息,以提高性能。」 – 寫給研究人員。

任務依賴行為

另一個有趣的結果是NAMM 會根據任務自動調整其行為。

例如,對於編碼任務,模型會丟棄與不影響程式碼執行的註解和空格相對應的連續標記區塊。

另一方面,在自然語言任務中,模型會丟棄表示語法冗餘且不影響序列意義的標記。
研究人員發布了創建自己的NAMM 所需的程式碼。通用轉換記憶體等技術對於處理數百萬個令牌的企業應用程式非常有用。這使他們能夠受益於速度的提高和成本的降低。經過訓練的NAMM 的可重複使用性也使其成為適用於各種公司應用程式的多功能工具。

展望未來,研究人員提出了更先進的技術,例如使用NAMM 來訓練法學碩士,以進一步擴展他們的記憶能力。
「這項工作只是實現此類新型記憶體模型潛力的開始。這些預計將為未來幾代變壓器的發展提供許多新的機會。」– 寫給研究人員。

發佈在BitcoinBázis 頁面。

資訊來源:由0x資訊編譯自BITCOINBAZIS。版權所有,未經許可,不得轉載


0X簡體中文版:新的LLM 優化技術可將記憶體使用量降低至四分之一

Total
0
Shares
Related Posts