NVIDIA TensorRT-LLM

NVIDIA TensorRT-LLM 为用户提供易于使用的 Python API,用于定义大型语言模型 (LLM),并构建 NVIDIA TensorRT 引擎,其中包含最先进的优化,可在 NVIDIA GPU 上高效执行推理。 TensorRT-LLM 还包含用于创建 Python 和 C++ 运行时组件,以执行这些 TensorRT 引擎。

这是试用 TensorRT-LLM 的起点。 具体来说,本快速入门指南使您能够快速完成设置并使用 TensorRT-LLM 发送 HTTP 请求。
本文档提供有关如何在 Linux 上安装 TensorRT-LLM 的分步说明。
本文档提供有关在 Linux 上从源代码构建 TensorRT-LLM 的说明。
本文档提供有关如何在 Windows 上安装 TensorRT-LLM 的分步说明。
本文档提供有关在 Windows 上从源代码构建 TensorRT-LLM 的说明。
克隆最新的 TensorRT-LLM 分支,使用代码,参与产品开发,拉取最新更改,并查看最新讨论。
本文档概述了 TensorRT-LLM 以及它如何加速和优化 NVIDIA GPU 上最新大型语言模型 (LLM) 的推理性能。 了解 TensorRT-LLM 提供的主要优势以及它如何为您提供帮助。
本文档提供 TensorRT-LLM 的当前状态、软件版本、已修复的错误和已知问题。 发行说明中发布的所有功能都经过了充分的测试和验证,并记录了已知的限制。
本文档列出了最新的 NVIDIA TensorRT-LLM 版本支持的 GPU、模型以及其他硬件和软件版本。
本文档解释了 TensorRT-LLM 作为工具包,如何组装优化的解决方案来执行大型语言模型 (LLM) 推理。
这是 TensorRT-LLM 库的 C++ API 运行时文档。
这是 TensorRT-LLM 库的 Python API 运行时文档。
这是 TensorRT-LLM 库的 Python API 层文档。
这是 TensorRT-LLM 库的 Python API 函数文档。
这是 TensorRT-LLM 库的 Python API 模型文档。
这是 TensorRT-LLM 库的 Python API 插件文档。
这是 TensorRT-LLM 库的 Python API 量化文档。
了解我们如何使用 NVIDIA 的解决方案套件来优化 LLM 模型并在多 GPU 环境中部署。
了解有关使用 NeMo 框架加速 LLM 模型对齐,以及通过 NVIDIA 的 TensorRT-LLM 和 Triton Inference Server 进行推理优化和部署的信息。
了解我们如何利用 TensorRT-LLM 来实现模型服务产品的关键功能,并突出显示 TensorRT-LLM 的有用功能,例如令牌流式传输、飞行中批处理、分页注意力、量化等等。
查找更多新闻和教程。
加入 NVIDIA 开发者计划。
探索 TensorRT-LLM 论坛。
本文档介绍了如何调试单元测试、执行错误、E2E 模型和安装问题。