英偉達發布TensorRT-LLM，可將H100 推理性能最高提升8 倍

據IT 之家9 月9 日報導，英偉達近日宣布推出名為TensorRT-LLM，是一個深度優化的開源庫，能夠在Hopper 等AI GPU 上加速所有大語言模型的推理性能。英偉達目前已經和開源社區合作，利用SmoothQuant、FlashAttention 和fMHA 等尖端技術，實現AI 內核來優化其GPU，可以加速GPT-3（175B），Llama Falcom（180B）和Bloom 模型。 TensorRT-LLM 的亮點在於引入了名為In-Flight batching 的調度方案，允許工作獨立於其他任務進入和退出GPU。該方案允許同一GPU 在處理大型計算密集型請求時，動態處理多個較小的查詢，提高GPU 的處理性能，可以讓H100 的吞吐量加快2 倍。在性能測試中，英偉達以A100 為基礎，對比了H100 以及啟用TensorRT-LLM 的H100，在GPT-J 6B 推理中，H100 推理性能比A100 提升4 倍，而啟用TensorRT-LLM 的H100 性能是A100 的8 倍。

英偉達發布TensorRT-LLM，可將H100 推理性能最高提升8 倍

知名資管公司Point72與ExodusPoint披露持有Alt5 Sigma股份

當ETH找到新的支持級別時值得購買的山寨幣冷軟件和Shiba INU成為安全避風港

比特幣預測：哈佛經濟學家羅戈夫對驚人現象的深思

比特幣有兩名礦工攻擊51％攻擊的風險

Dogecoin（Doge）會打1美元嗎？三個鮮為人知的山寨幣首先要到達那裡

為什麼Pepe Coin和Dogwifhat的持有者在Web3 Coldbook Plauna Punauna之前選擇多樣化投資於RWA加密貨幣

Ripple提出數字資產託管四大準則，推動穩定幣與數字金融發展

金鵝寵物種植花園維基

英偉達發布TensorRT-LLM，可將H100 推理性能最高提升8 倍

Related Posts