根據站長之家報道,UC 柏克萊研究人員提出了一項名為RingAttention 的新方法,以解決深度學習模型中記憶體需求的挑戰。在最新的研究中,研究人員探討了Transformer 模型在處理長序列時面臨的問題,特別是由於自註意力機制引發的記憶體需求。 RingAttention 透過將自註意力和前饋網路計算塊塊地分佈在多個裝置上,實現了記憶體高效,允許訓練超過500 倍長度的序列。研究人員的實驗證明,RingAttention 可以將Transformer 模型的記憶體需求降低,使其能夠訓練比以前的記憶體高效方法長500 倍以上的序列,而不需要對注意力機制進行近似。此外,RingAttention 還允許處理長度超過1 億的序列,為處理大規模資料提供了可能性。