解碼AI 效能:在NVIDIA RTX PC 上分析TOPS 和代幣


解碼AI 效能:在NVIDIA RTX PC 上分析TOPS 和代幣

人工智慧PC 時代已經到來,由NVIDIA RTX 和GeForce RTX 技術提供支援。據NVIDIA 部落格稱,這一轉變帶來了一種評估人工智慧加速任務性能的新方法,引入了在桌上型電腦和筆記型電腦之間進行選擇時可能難以解讀的指標。

在TOPS 上亮相

第一個基準是TOPS,即每秒兆次運算。此指標類似引擎的馬力等級,數字越高表示性能越好。例如,微軟的Copilot+ PC 系列包含能夠執行高達40 TOPS 的神經處理單元(NPU),足以完成輕量級AI 輔助任務。然而,NVIDIA RTX 和GeForce RTX GPU 提供了前所未有的效能,GeForce RTX 4090 GPU 提供超過1,300 TOPS,這對於要求嚴苛的生成AI 任務至關重要,例如AI 輔助數位內容建立和查詢大型語言模型(LLM)。

插入代幣即可遊戲

LLM 性能以模型產生的標記數量來衡量。標記可以是單字、標點符號或空格。 AI 效能可以用「每秒標記數」來量化。另一個關鍵因素是批次大小,即同時處理的輸入數量。更大的批次大小可以提高效能,但需要更多記憶體。 RTX GPU 在這方面表現出色,因為它們擁有大量視訊隨機存取記憶體(VRAM)、Tensor Cores 和TensorRT-LLM 軟體。

GeForce RTX GPU 提供高達24GB 的高速VRAM,NVIDIA RTX GPU 提供高達48GB 的​​高速VRAM,可實現更高的批次大小和更大的模型。專用AI 加速器Tensor Cores 可顯著加速深度學習和生成式AI 模型所需的操作。使用NVIDIA TensorRT 軟體開發套件(SDK) 的應用程式可在超過1 億台搭載RTX GPU 的Windows PC 和工作站上發揮最大效能。

文字轉圖像,速度比以往更快

測量影像生成速度是評估效能的另一種方法。 Stable Diffusion 是一種流行的基於圖像的AI 模型,它允許使用者將文字描述轉換為複雜的視覺表示。借助RTX GPU,這些結果可以比在CPU 或NPU 上更快產生。使用Automatic1111 介面的TensorRT 擴充功能進一步增強了效能,使RTX 使用者能夠使用SDXL Base 檢查點將提示中的影像產生速度提高2 倍。

ComfyUI 是另一個流行的穩定擴散介面,最近又增加了TensorRT 加速功能,讓RTX 使用者從提示產生影像的速度提高60%,並將這些影像轉換為影片的速度提高70%。新的UL Procyon AI 影像產生基準測試顯示,與最快的非TensorRT 實作相比,GeForce RTX 4080 SUPER GPU 的速度提高了50%。

TensorRT 加速即將應用於Stability AI 的新文字轉影像模型Stable Diffusion 3,效能提升50%。 TensorRT-Model Optimizer 進一步加速效能,讓速度提升70%,記憶體消耗減少50%。

這些進步的真正考驗在於實際用例。使用者可以透過在RTX GPU 上以更快的速度調整提示來優化影像生成,每次迭代只需幾秒鐘,而在其他系統上則需要幾分鐘。這種速度和安全性是透過在RTX 驅動的PC 或工作站上本地運行所有內容來實現的。

研究結果已公佈並開源

Jan.ai 背後的AI 研究人員最近將TensorRT-LLM 整合到他們的本地聊天機器人應用中,並對這些優化進行了基準測試。他們發現TensorRT“在相同硬體上比llama.cpp 快30-70%”,並且在連續處理運行中效率更高。該團隊的方法對其他人開放,以便他們自己測量生成AI 性能。

從遊戲到生成式AI,速度至關重要。 TOPS、每秒影像數、每秒令牌數和批次大小都是決定效能的重要指標。

圖片來源:Shutterstock

。 。 。

標籤

資訊來源:由0x資訊編譯自BLOCKCHAINNEWS。版權所有,未經許可,不得轉載

Total
0
Shares
Related Posts