TensorRT-LLM 用户指南#

什么是 TensorRT-LLM#

TensorRT-LLM (TRT-LLM) 是一个开源库，旨在加速和优化 NVIDIA GPU 上大型语言模型 (LLM) 的推理性能。 TRT-LLM 为用户提供易于使用的 Python API，用于构建 LLM 的 TensorRT 引擎，并结合了最先进的优化技术，以确保在 NVIDIA GPU 上实现高效推理。

如何通过 TensorRT-LLM 后端在 Triton 服务器上运行 TRT-LLM 模型#

TensorRT-LLM 后端让您可以使用 Triton 推理服务器来服务 TensorRT-LLM 模型。查看 TensorRT-LLM 后端仓库中的入门指南部分，了解如何利用 NGC Triton TRT-LLM 容器为您的 LLM 模型准备引擎并使用 Triton 服务它们。

如何使用您的自定义 TRT-LLM 模型#

所有支持的模型都可以在 TRT-LLM 仓库的 examples 文件夹中找到。按照示例将您的模型转换为 TensorRT 引擎。

引擎构建完成后，为 Triton 准备模型仓库，并修改模型配置。

模型配置文件中只需要设置强制参数。您可以根据需要随意修改可选参数。要了解有关参数、模型输入和输出的更多信息，请参阅模型配置文档以获取更多详细信息。

高级配置选项和部署策略#

探索高级配置选项和部署策略，以有效地优化和运行带有 TRT-LLM 模型的 Triton

模型部署：在各种环境中有效部署和管理模型的技术。
多实例 GPU (MIG) 支持：使用 MIG 运行 Triton 和 TRT-LLM 模型，以优化 GPU 资源管理。
调度：配置调度策略以控制如何管理和执行请求。
键值缓存：利用 KV 缓存和 KV 缓存重用，以优化内存使用并提高性能。
解码：用于生成文本的高级方法，包括 top-k、top-p、top-k top-p、集束搜索、Medusa 和推测性解码。
分块上下文：在生成阶段将上下文拆分为多个块并对其进行批处理，以提高整体吞吐量。
量化：应用量化技术以减小模型大小并提高推理速度。
LoRa (低秩自适应)：使用 LoRa 进行高效的模型微调和适配。

教程#

请务必查看教程仓库，以查看有关使用 Triton 服务器和 TensorRT-LLM 服务流行 LLM 模型以及在 Kubernetes 上部署它们的更多指南。

基准测试#

GenAI-Perf 是一个命令行工具，用于测量由 Triton 推理服务器服务的 LLM 的吞吐量和延迟。查看快速开始，了解如何使用 GenAI-Perf 来基准测试您的 LLM 模型。

性能最佳实践#

查看性能最佳实践指南，了解如何优化您的 TensorRT-LLM 模型以获得更好的性能。

指标#

Triton 服务器提供指标，指示 GPU 和请求统计信息。请参阅 TensorRT-LLM 后端仓库中的 Triton 指标部分，了解如何查询 Triton 指标端点以获取 TRT-LLM 统计信息。

提问或报告问题#

找不到您要查找的内容，或者有疑问或问题？请随时在 GitHub 问题页面中提问或报告问题