據IT 之家9 月9 日報導,英偉達近日宣布推出名為TensorRT-LLM,是一個深度優化的開源庫,能夠在Hopper 等AI GPU 上加速所有大語言模型的推理性能。英偉達目前已經和開源社區合作,利用SmoothQuant、FlashAttention 和fMHA 等尖端技術,實現AI 內核來優化其GPU,可以加速GPT-3(175B),Llama Falcom(180B)和Bloom 模型。 TensorRT-LLM 的亮點在於引入了名為In-Flight batching 的調度方案,允許工作獨立於其他任務進入和退出GPU。該方案允許同一GPU 在處理大型計算密集型請求時,動態處理多個較小的查詢,提高GPU 的處理性能,可以讓H100 的吞吐量加快2 倍。在性能測試中,英偉達以A100 為基礎,對比了H100 以及啟用TensorRT-LLM 的H100,在GPT-J 6B 推理中,H100 推理性能比A100 提升4 倍,而啟用TensorRT-LLM 的H100 性能是A100 的8 倍。