在 Triton 中部署 Hugging Face Transformer 模型#
有多种方法可以使用 Tritonserver 运行 Llama2。
使用 TensorRT-LLM 后端 推理
使用 vLLM 后端 推理
预构建说明#
在本教程中,我们假设 Llama2 模型、权重和 tokens 是从 Huggingface Llama2 仓库 这里 克隆的。要运行本教程,您需要获得 Llama2 仓库的权限以及访问 huggingface cli 的权限。cli 使用用户访问令牌。令牌可以在这里找到:huggingface.co/settings/tokens。