使用 vLLM 自托管 Llama Guard#

以下是使用 vLLM 和 HuggingFace 自托管 Llama Guard 的步骤。或者，您也可以使用您自己的自定义推理代码和下载的模型权重来完成此操作。

huggingface-cli login

pip install vllm
python -m vllm.entrypoints.openai.api_server --port 5123 --model meta-llama/LlamaGuard-7b

这将在 http://127.0.0.1:5123/ 上启动 vLLM 推理服务器。

在您的机器人的 YAML 配置文件中设置主机和端口（示例配置）。如果您在另一台服务器上运行 nemoguardrails 应用程序，请记住将 localhost 替换为您的 vLLM 服务器的公共 IP 地址。