支持矩阵#

关于模型配置文件#

NVIDIA NIM 微服务的模型使用针对特定 NVIDIA GPU 型号、GPU 数量、精度等优化的模型引擎。NVIDIA 为几种常见的组合生成模型引擎,这些组合被称为模型配置文件。每个模型配置文件都由唯一的 64 个十六进制数字字符串标识,该字符串被称为配置文件 ID

NIM 微服务支持自动配置文件选择,通过确定节点上的 GPU 型号和数量,并尝试匹配最佳模型配置文件。或者,NIM 微服务支持运行指定的模型配置文件,但这要求您查看配置文件并知道配置文件 ID。

可用的模型配置文件存储在 NIM 容器文件系统中的文件中。该文件被称为模型清单文件,默认路径是容器中的 /opt/nim/etc/default/model_manifest.yaml

NVIDIA Llama 3.1 NemoGuard 8B TopicGuard 模型配置文件#

该模型需要 48 GB 的 GPU 内存。NVIDIA 使用 H100、A100 和 A6000 GPU 开发并测试了该微服务。您可以使用具有该容量的单个 GPU 或满足容量要求的两个 GPU。

有关本地可构建和通用模型配置文件的信息,请参阅 NIM for LLMs 文档中的 模型配置文件

注意

张量并行 4 GPU 模型配置文件不可运行。这是一个已知问题。

NVIDIA Llama 3.1 Nemoguard 8B Topic Control 1.3.0 版本模型配置文件#

本地可构建模型配置文件#

精度

GPU 数量

LoRA

LLM 引擎

TensorRT-LLM 可构建

磁盘空间

配置文件 ID

BF16

1

TensorRT-LLM

14.97 GB

7cc8597690a35aba19a3636f35e7f1c7e7dbc005fe88ce9394cad4a4adeed414

BF16

1

TensorRT-LLM

14.97 GB

df4113435195daa68b56c83741d66b422c463c556fc1669f39f923427c1c57c5

BF16

2

TensorRT-LLM

14.97 GB

48696b63c4821ae61e3dae479a1a822f1d2aa4cc8d02fae64a59f1d88c487304

BF16

2

TensorRT-LLM

14.97 GB

b7b6fa584441d9536091ce5cf80ccc31765780b8a46540da4e7bada5c5108ed9

BF16

4

TensorRT-LLM

14.97 GB

4e0d43c3245d0232d32bcca05648c98a70e9692518701cdd0cfd987acf5a3cfa

通用模型配置文件#

精度

GPU 数量

LoRA

LLM 引擎

磁盘空间

配置文件 ID

BF16

1

vLLM

14.97 GB

193649a2eb95e821309d6023a2cabb31489d3b690a9973c7ab5d1ff58b0aa7eb

BF16

2

vLLM

14.97 GB

395082aa40085d35f004dd3056d7583aea330417ed509b4315099a66cfc72bdd

BF16

4

vLLM

14.97 GB

96e7cd0991f4ab5cf47a08cce8d1169daa8a431485be805fb00de0638bdeed9d