使用 vLLM 自托管 Llama Guard#

以下是使用 vLLM 和 HuggingFace 自托管 Llama Guard 的步骤。或者,您也可以使用您自己的自定义推理代码和下载的模型权重来完成此操作。

  1. 从 HuggingFace 上的 Meta 获取对 Llama Guard 模型的访问权限。有关更多详细信息,请参阅此页面

  2. 使用您的帐户令牌登录 Hugging Face

huggingface-cli login
  1. 在这里,我们使用 vLLM 在 OpenAI 兼容模式下托管 Llama Guard 推理端点。

pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5123 --model meta-llama/LlamaGuard-7b

这将在 http://127.0.0.1:5123/ 上启动 vLLM 推理服务器。

  1. 在您的机器人的 YAML 配置文件中设置主机和端口(示例配置)。如果您在另一台服务器上运行 nemoguardrails 应用程序,请记住将 localhost 替换为您的 vLLM 服务器的公共 IP 地址。