支持矩阵#

关于模型配置文件#

NVIDIA NIM 微服务的模型使用针对特定 NVIDIA GPU 型号、GPU 数量、精度等进行优化的模型引擎。 NVIDIA 为几种流行的组合生成模型引擎，这些组合被称为模型配置文件。每个模型配置文件都由唯一的 64 个字符的十六进制数字字符串标识，该字符串称为配置文件 ID。

NIM 微服务支持自动配置文件选择，通过确定节点上的 GPU 型号和数量并尝试匹配最佳模型配置文件。或者，NIM 微服务支持运行指定的模型配置文件，但这需要您查看配置文件并了解配置文件 ID。

可用的模型配置文件存储在 NIM 容器文件系统中的文件中。该文件称为模型清单文件，默认路径是容器中的 /opt/nim/etc/default/model_manifest.yaml。

该模型需要 48 GB 的 GPU 内存。 NVIDIA 使用 H100、A100 和 A6000 GPU 开发并测试了该微服务。您可以使用具有该容量的单个 GPU 或满足容量要求的两个 GPU。

有关本地可构建和通用模型配置文件的信息，请参阅 NIM for LLMs 文档中的模型配置文件。

注意

张量并行 4 GPU 模型配置文件不可运行。这是一个已知问题。

本地可构建模型配置文件#

精度	GPU 数量	LoRA	LLM 引擎	TensorRT-LLM 可构建	磁盘空间	配置文件 ID
BF16	1	False	TensorRT-LLM	True	14.97 GB	7cc8597690a35aba19a3636f35e7f1c7e7dbc005fe88ce9394cad4a4adeed414
BF16	1	True	TensorRT-LLM	True	14.97 GB	df4113435195daa68b56c83741d66b422c463c556fc1669f39f923427c1c57c5
BF16	2	True	TensorRT-LLM	True	14.97 GB	48696b63c4821ae61e3dae479a1a822f1d2aa4cc8d02fae64a59f1d88c487304
BF16	2	False	TensorRT-LLM	True	14.97 GB	b7b6fa584441d9536091ce5cf80ccc31765780b8a46540da4e7bada5c5108ed9
BF16	4	False	TensorRT-LLM	True	14.97 GB	4e0d43c3245d0232d32bcca05648c98a70e9692518701cdd0cfd987acf5a3cfa

精度	GPU 数量	LoRA	LLM 引擎	磁盘空间	配置文件 ID
BF16	1	False	vLLM	14.97 GB	193649a2eb95e821309d6023a2cabb31489d3b690a9973c7ab5d1ff58b0aa7eb
BF16	2	False	vLLM	14.97 GB	395082aa40085d35f004dd3056d7583aea330417ed509b4315099a66cfc72bdd
BF16	4	False	vLLM	14.97 GB	96e7cd0991f4ab5cf47a08cce8d1169daa8a431485be805fb00de0638bdeed9d