TensorRT-LLM 用户指南#
什么是 TensorRT-LLM#
TensorRT-LLM (TRT-LLM) 是一个开源库,旨在加速和优化 NVIDIA GPU 上大型语言模型 (LLM) 的推理性能。 TRT-LLM 为用户提供易于使用的 Python API,用于构建 LLM 的 TensorRT 引擎,并结合了最先进的优化技术,以确保在 NVIDIA GPU 上实现高效推理。
如何通过 TensorRT-LLM 后端在 Triton 服务器上运行 TRT-LLM 模型#
TensorRT-LLM 后端 让您可以使用 Triton 推理服务器来服务 TensorRT-LLM 模型。查看 TensorRT-LLM 后端仓库中的入门指南部分,了解如何利用 NGC Triton TRT-LLM 容器 为您的 LLM 模型准备引擎并使用 Triton 服务它们。
如何使用您的自定义 TRT-LLM 模型#
所有支持的模型都可以在 TRT-LLM 仓库的 examples 文件夹中找到。按照示例将您的模型转换为 TensorRT 引擎。
引擎构建完成后,为 Triton 准备模型仓库,并修改模型配置。
模型配置文件中只需要设置强制参数。您可以根据需要随意修改可选参数。要了解有关参数、模型输入和输出的更多信息,请参阅模型配置文档以获取更多详细信息。
高级配置选项和部署策略#
探索高级配置选项和部署策略,以有效地优化和运行带有 TRT-LLM 模型的 Triton
模型部署:在各种环境中有效部署和管理模型的技术。
多实例 GPU (MIG) 支持:使用 MIG 运行 Triton 和 TRT-LLM 模型,以优化 GPU 资源管理。
调度:配置调度策略以控制如何管理和执行请求。
键值缓存:利用 KV 缓存和 KV 缓存重用,以优化内存使用并提高性能。
解码:用于生成文本的高级方法,包括 top-k、top-p、top-k top-p、集束搜索、Medusa 和推测性解码。
分块上下文:在生成阶段将上下文拆分为多个块并对其进行批处理,以提高整体吞吐量。
量化:应用量化技术以减小模型大小并提高推理速度。
LoRa (低秩自适应):使用 LoRa 进行高效的模型微调和适配。
教程#
请务必查看教程仓库,以查看有关使用 Triton 服务器和 TensorRT-LLM 服务流行 LLM 模型以及在 Kubernetes 上部署它们的更多指南。
基准测试#
GenAI-Perf 是一个命令行工具,用于测量由 Triton 推理服务器服务的 LLM 的吞吐量和延迟。查看快速开始,了解如何使用 GenAI-Perf 来基准测试您的 LLM 模型。
性能最佳实践#
查看性能最佳实践指南,了解如何优化您的 TensorRT-LLM 模型以获得更好的性能。
指标#
Triton 服务器提供指标,指示 GPU 和请求统计信息。请参阅 TensorRT-LLM 后端仓库中的 Triton 指标 部分,了解如何查询 Triton 指标端点以获取 TRT-LLM 统计信息。
提问或报告问题#
找不到您要查找的内容,或者有疑问或问题?请随时在 GitHub 问题页面中提问或报告问题