从源代码构建#

本文档介绍如何从源代码构建 TensorRT-LLM 后端和 Triton TRT-LLM 容器。Triton 容器包含 TensorRT-LLM,以及 TensorRT-LLM 后端和 Python 后端。

从源代码构建 TensorRT-LLM 后端#

在构建后端之前,请确保已安装 TensorRT-LLM。由于 TensorRT-LLM 和 TensorRT-LLM 后端的版本必须对齐,因此建议直接使用来自 NGC 的 Triton TRT-LLM 容器,或者从源代码构建整个容器,如下面“构建 Docker 容器”部分所述。

cd inflight_batcher_llm
bash scripts/build.sh

构建 Docker 容器#

选项 1. 构建 NGC Triton TRT-LLM 容器#

以下命令将构建与 NGC 上的 Triton TRT-LLM 容器相同的容器。

您可以更新 build.sh 脚本中的参数,以匹配您想要使用的版本。

cd tensorrtllm_backend
./build.sh

您的本地 Docker 镜像中应该有一个名为 tritonserver 的新镜像。

选项 2. 通过 Docker 构建#

此构建选项中使用的 Triton Server 版本可以在 Dockerfile 中找到。

# Update the submodules
cd tensorrtllm_backend
git lfs install
git submodule update --init --recursive

# Use the Dockerfile to build the backend in a container
# For x86_64
DOCKER_BUILDKIT=1 docker build -t triton_trt_llm -f dockerfile/Dockerfile.trt_llm_backend .
# For aarch64
DOCKER_BUILDKIT=1 docker build -t triton_trt_llm --build-arg TORCH_INSTALL_TYPE="src_non_cxx11_abi" -f dockerfile/Dockerfile.trt_llm_backend .