在 Triton 中部署 Hugging Face Transformer 模型#

有多种方法可以使用 Tritonserver 运行 Llama2。

  1. 使用 TensorRT-LLM 后端 推理

  2. 使用 vLLM 后端 推理

  3. 使用 基于 Python 的后端作为 HuggingFace 模型 推理

预构建说明#

在本教程中,我们假设 Llama2 模型、权重和 tokens 是从 Huggingface Llama2 仓库 这里 克隆的。要运行本教程,您需要获得 Llama2 仓库的权限以及访问 huggingface cli 的权限。cli 使用用户访问令牌。令牌可以在这里找到:huggingface.co/settings/tokens