在 Triton 中部署 Hugging Face Transformer 模型#

有多种方法可以使用 Tritonserver 运行 Llama2。

预构建说明#

在本教程中，我们假设 Llama2 模型、权重和 tokens 是从 Huggingface Llama2 仓库这里克隆的。要运行本教程，您需要获得 Llama2 仓库的权限以及访问 huggingface cli 的权限。cli 使用用户访问令牌。令牌可以在这里找到：huggingface.co/settings/tokens。