NVIDIA TensorRT-LLM

NVIDIA 文档中心 NVIDIA TensorRT-LLM

NVIDIA TensorRT-LLM 为用户提供易于使用的 Python API，用于定义大型语言模型 (LLM)，并构建 NVIDIA TensorRT 引擎，其中包含最先进的优化，可在 NVIDIA GPU 上高效执行推理。 TensorRT-LLM 还包含用于创建 Python 和 C++ 运行时组件，以执行这些 TensorRT 引擎。

快速入门
代码
文档
API
博客和视频
支持

快速入门指南

这是试用 TensorRT-LLM 的起点。具体来说，本快速入门指南使您能够快速完成设置并使用 TensorRT-LLM 发送 HTTP 请求。

在 Linux 上安装

本文档提供有关如何在 Linux 上安装 TensorRT-LLM 的分步说明。

在 Linux 上从源代码构建

本文档提供有关在 Linux 上从源代码构建 TensorRT-LLM 的说明。

在 Windows 上安装

本文档提供有关如何在 Windows 上安装 TensorRT-LLM 的分步说明。

在 Windows 上从源代码构建

本文档提供有关在 Windows 上从源代码构建 TensorRT-LLM 的说明。

GitHub TensorRT-LLM 代码

克隆最新的 TensorRT-LLM 分支，使用代码，参与产品开发，拉取最新更改，并查看最新讨论。

产品概述

本文档概述了 TensorRT-LLM 以及它如何加速和优化 NVIDIA GPU 上最新大型语言模型 (LLM) 的推理性能。了解 TensorRT-LLM 提供的主要优势以及它如何为您提供帮助。

发行说明

本文档提供 TensorRT-LLM 的当前状态、软件版本、已修复的错误和已知问题。发行说明中发布的所有功能都经过了充分的测试和验证，并记录了已知的限制。

支持矩阵

本文档列出了最新的 NVIDIA TensorRT-LLM 版本支持的 GPU、模型以及其他硬件和软件版本。

架构

本文档解释了 TensorRT-LLM 作为工具包，如何组装优化的解决方案来执行大型语言模型 (LLM) 推理。

C++ API 运行时

这是 TensorRT-LLM 库的 C++ API 运行时文档。

Python API 运行时

这是 TensorRT-LLM 库的 Python API 运行时文档。

Python API 层

这是 TensorRT-LLM 库的 Python API 层文档。

Python API 函数

这是 TensorRT-LLM 库的 Python API 函数文档。

Python API 模型

这是 TensorRT-LLM 库的 Python API 模型文档。

Python API 插件

这是 TensorRT-LLM 库的 Python API 插件文档。

Python API 量化

这是 TensorRT-LLM 库的 Python API 量化文档。

GTC 会议：使用 TensorRT-LLM 优化和扩展 LLM 以进行文本生成

了解我们如何使用 NVIDIA 的解决方案套件来优化 LLM 模型并在多 GPU 环境中部署。

GTC 会议：在 NeMo、TensorRT-LLM 和 Triton Inference Server 中加速 LLM 模型对齐和部署

了解有关使用 NeMo 框架加速 LLM 模型对齐，以及通过 NVIDIA 的 TensorRT-LLM 和 Triton Inference Server 进行推理优化和部署的信息。

GTC 会议：使用 TensorRT-LLM 加速 LLM 推理

了解我们如何利用 TensorRT-LLM 来实现模型服务产品的关键功能，并突出显示 TensorRT-LLM 的有用功能，例如令牌流式传输、飞行中批处理、分页注意力、量化等等。

技术博客

查找更多新闻和教程。

NVIDIA 开发者计划

加入 NVIDIA 开发者计划。

NVIDIA 开发者论坛

探索 TensorRT-LLM 论坛。

故障排除

本文档介绍了如何调试单元测试、执行错误、E2E 模型和安装问题。