从源代码构建#
本文档介绍如何从源代码构建 TensorRT-LLM 后端和 Triton TRT-LLM 容器。Triton 容器包含 TensorRT-LLM,以及 TensorRT-LLM 后端和 Python 后端。
从源代码构建 TensorRT-LLM 后端#
在构建后端之前,请确保已安装 TensorRT-LLM。由于 TensorRT-LLM 和 TensorRT-LLM 后端的版本必须对齐,因此建议直接使用来自 NGC 的 Triton TRT-LLM 容器,或者从源代码构建整个容器,如下面“构建 Docker 容器”部分所述。
cd inflight_batcher_llm
bash scripts/build.sh
构建 Docker 容器#
选项 1. 构建 NGC Triton TRT-LLM 容器#
以下命令将构建与 NGC 上的 Triton TRT-LLM 容器相同的容器。
您可以更新 build.sh
脚本中的参数,以匹配您想要使用的版本。
cd tensorrtllm_backend
./build.sh
您的本地 Docker 镜像中应该有一个名为 tritonserver
的新镜像。
选项 2. 通过 Docker 构建#
此构建选项中使用的 Triton Server 版本可以在 Dockerfile 中找到。
# Update the submodules
cd tensorrtllm_backend
git lfs install
git submodule update --init --recursive
# Use the Dockerfile to build the backend in a container
# For x86_64
DOCKER_BUILDKIT=1 docker build -t triton_trt_llm -f dockerfile/Dockerfile.trt_llm_backend .
# For aarch64
DOCKER_BUILDKIT=1 docker build -t triton_trt_llm --build-arg TORCH_INSTALL_TYPE="src_non_cxx11_abi" -f dockerfile/Dockerfile.trt_llm_backend .