NVIDIA 在TensorRT-LLM 中引入了KV 快取的早期重複使用技術,顯著提高了AI 模型的推理速度,將首次代幣產生時間提高了5 倍。 KV 快取能減少運算負載,優化大型語言模型的效能。該技術允許在計算完成前重複使用一部分KV 緩存,特別適用於企業聊天機器人,以應對高流量場景。 TensorRT-LLM 還提供靈活的KV 快取區塊大小調整和智慧驅逐演算法,進一步優化記憶體管理,從而提高多用戶環境下的效率。
特德·西索川十一月09, 2024 06:12
NVIDIA 在TensorRT-LLM 中引入了KV 快取早期重用,顯著加快了推理時間並優化了AI 模型的記憶體使用。
NVIDIA 推出了透過TensorRT-LLM 提高AI 模型效率的新技術,重點在於鍵值(KV) 快取的早期重複使用。據NVIDIA 稱,這項創新預計將首次代幣(TTFT) 時間加快5 倍。
了解KV 快取重用
KV 快取是大型語言模型(LLM) 不可或缺的一部分,它透過大量計算將使用者提示轉換為密集向量。這些計算是資源密集型的,尤其是當輸入序列變長時。 KV 快取儲存這些計算以避免後續令牌產生中的冗餘,透過減少運算負載和時間來優化效能。
早期重用策略
透過實施早期重複使用策略,NVIDIA 的TensorRT-LLM 允許在整個運算完成之前重複使用部分KV 快取。這種方法在企業聊天機器人等場景中特別有用,其中預先定義的系統提示引導回應。系統提示的重複使用可以顯著減少高流量期間重新計算的需要,從而將推理速度提高多達5 倍。
高階記憶體管理
TensorRT-LLM 引入了靈活的KV 快取區塊大小調整,允許開發人員透過將區塊大小從64 個令牌調整到少至2 個令牌來優化記憶體使用。這種靈活性增強了記憶體區塊的重用,從而在使用NVIDIA H100 Tensor Core GPU 時將多用戶環境中的TTFT 效率提高高達7%。
高效率的驅逐協議
為了進一步增強記憶體管理,TensorRT-LLM 採用智慧驅逐演算法。這些演算法透過優先驅逐依賴節點而不是來源節點來處理依賴關係複雜性,確保最小的中斷並保持高效的KV 快取管理。
優化AI模型效能
借助這些進步,NVIDIA 旨在為開發人員提供工具,以最大限度地提高AI 模型性能、縮短響應時間和提高系統吞吐量。 TensorRT-LLM 中的KV 快取重用功能旨在有效利用運算資源,使其成為專注於優化AI 效能的開發人員的寶貴資產。
圖片來源:Shutterstock
資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權所有,未經許可,不得轉載