支持矩阵#
关于模型配置文件#
NVIDIA NIM 微服务的模型使用针对特定 NVIDIA GPU 型号、GPU 数量、精度等进行优化的模型引擎。 NVIDIA 为几种流行的组合生成模型引擎,这些组合被称为模型配置文件。每个模型配置文件都由唯一的 64 个字符的十六进制数字字符串标识,该字符串称为配置文件 ID。
NIM 微服务支持自动配置文件选择,通过确定节点上的 GPU 型号和数量并尝试匹配最佳模型配置文件。或者,NIM 微服务支持运行指定的模型配置文件,但这需要您查看配置文件并了解配置文件 ID。
可用的模型配置文件存储在 NIM 容器文件系统中的文件中。该文件称为模型清单文件,默认路径是容器中的 /opt/nim/etc/default/model_manifest.yaml
。
NVIDIA Llama 3.1 NemoGuard 8B ContentSafety 模型配置文件#
该模型需要 48 GB 的 GPU 内存。 NVIDIA 使用 H100、A100 和 A6000 GPU 开发并测试了该微服务。您可以使用具有该容量的单个 GPU 或满足容量要求的两个 GPU。
有关本地可构建和通用模型配置文件的信息,请参阅 NIM for LLMs 文档中的模型配置文件。
注意
张量并行 4 GPU 模型配置文件不可运行。这是一个已知问题。
本地可构建模型配置文件#
精度 |
GPU 数量 |
LoRA |
LLM 引擎 |
TensorRT-LLM 可构建 |
磁盘空间 |
配置文件 ID |
---|---|---|---|---|---|---|
BF16 |
1 |
False |
TensorRT-LLM |
True |
14.97 GB |
7cc8597690a35aba19a3636f35e7f1c7e7dbc005fe88ce9394cad4a4adeed414
|
BF16 |
1 |
True |
TensorRT-LLM |
True |
14.97 GB |
df4113435195daa68b56c83741d66b422c463c556fc1669f39f923427c1c57c5
|
BF16 |
2 |
True |
TensorRT-LLM |
True |
14.97 GB |
48696b63c4821ae61e3dae479a1a822f1d2aa4cc8d02fae64a59f1d88c487304
|
BF16 |
2 |
False |
TensorRT-LLM |
True |
14.97 GB |
b7b6fa584441d9536091ce5cf80ccc31765780b8a46540da4e7bada5c5108ed9
|
BF16 |
4 |
False |
TensorRT-LLM |
True |
14.97 GB |
4e0d43c3245d0232d32bcca05648c98a70e9692518701cdd0cfd987acf5a3cfa
|
通用模型配置文件#
精度 |
GPU 数量 |
LoRA |
LLM 引擎 |
磁盘空间 |
配置文件 ID |
---|---|---|---|---|---|
BF16 |
1 |
False |
vLLM |
14.97 GB |
193649a2eb95e821309d6023a2cabb31489d3b690a9973c7ab5d1ff58b0aa7eb
|
BF16 |
2 |
False |
vLLM |
14.97 GB |
395082aa40085d35f004dd3056d7583aea330417ed509b4315099a66cfc72bdd
|
BF16 |
4 |
False |
vLLM |
14.97 GB |
96e7cd0991f4ab5cf47a08cce8d1169daa8a431485be805fb00de0638bdeed9d
|