NVIDIA TensorRT-LLM
NVIDIA TensorRT-LLM 为用户提供易于使用的 Python API,用于定义大型语言模型 (LLM),并构建 NVIDIA TensorRT 引擎,其中包含最先进的优化,可在 NVIDIA GPU 上高效执行推理。 TensorRT-LLM 还包含用于创建 Python 和 C++ 运行时组件,以执行这些 TensorRT 引擎。
本文档提供有关如何在 Linux 上安装 TensorRT-LLM 的分步说明。
本文档提供有关在 Linux 上从源代码构建 TensorRT-LLM 的说明。
本文档提供有关如何在 Windows 上安装 TensorRT-LLM 的分步说明。
本文档提供有关在 Windows 上从源代码构建 TensorRT-LLM 的说明。
克隆最新的 TensorRT-LLM 分支,使用代码,参与产品开发,拉取最新更改,并查看最新讨论。
这是 TensorRT-LLM 库的 C++ API 运行时文档。
这是 TensorRT-LLM 库的 Python API 运行时文档。
这是 TensorRT-LLM 库的 Python API 层文档。
这是 TensorRT-LLM 库的 Python API 函数文档。
这是 TensorRT-LLM 库的 Python API 模型文档。
这是 TensorRT-LLM 库的 Python API 插件文档。
这是 TensorRT-LLM 库的 Python API 量化文档。
了解我们如何使用 NVIDIA 的解决方案套件来优化 LLM 模型并在多 GPU 环境中部署。
了解有关使用 NeMo 框架加速 LLM 模型对齐,以及通过 NVIDIA 的 TensorRT-LLM 和 Triton Inference Server 进行推理优化和部署的信息。
了解我们如何利用 TensorRT-LLM 来实现模型服务产品的关键功能,并突出显示 TensorRT-LLM 的有用功能,例如令牌流式传输、飞行中批处理、分页注意力、量化等等。
加入 NVIDIA 开发者计划。
探索 TensorRT-LLM 论坛。