模型配置文件#

NIM 模型配置文件定义了 NIM 可以使用的模型引擎。基于配置文件内容哈希的唯一字符串标识每个配置文件。

用户可以在部署时按照配置文件选择步骤选择配置文件。如果用户在部署时未手动选择配置文件，NIM 将自动选择通用的、非优化的配置文件。要了解配置文件及其相应的引擎是如何创建的，请参阅配置文件的创建方式。

模型配置文件嵌入在 NIM 容器的 Model Manifest 文件中，默认情况下该文件位于容器文件系统内的 /opt/nim/etc/config/default/model_manifest.yaml。

配置文件选择#

要为部署选择配置文件，请使用 -e NIM_MANIFEST_PROFILE=<value> 设置特定的配置文件 ID。您可以从以下列表中为您的 GPU 选择配置文件 ID

GPU	GPU 内存	精度	配置文件 ID
H100 SXM	80	FP16	420b5bb2-cd51-4dac-be21-759f3df4e441
H100 PCIe	80	FP16	420b5bb2-cd51-4dac-be21-759f3df4e441
A100 SXM	80	FP16	3f5c5926-add5-402d-8877-c0798ffbb9e9
A100 PCIe	80	FP16	3f5c5926-add5-402d-8877-c0798ffbb9e9
L40S	48	FP16	3c28d914-ebbd-418b-8c5a-2a0da64bf4e3
A10G	24	FP16	d892ff5f-a51e-417b-bda8-63a004f4c3d7
A6000 Ada	48	FP16	a19c7bf8-b6c4-47b3-b519-0b67840c9951
RTX 4090	48	FP16	38ce5361-fd45-4d48-94b0-1ca7eb3c5d0b

如果您在不受支持的 GPU 上运行，NIM 将选择通用的、非优化的配置文件，其配置文件 ID 为 afd81bb5-1b82-4816-a1bd-312dd380e4d1。

配置文件的创建方式#

NIM 微服务有两种主要的配置文件类别：optimized（优化后的）和 generic（通用的）。optimized 配置文件是为一部分 GPU 和模型创建的，并利用模型和硬件特定的优化，旨在提高大型语言模型的性能。随着时间的推移，optimized 引擎存在的模型和 GPU 的范围将会扩大。但是，如果特定的模型和 GPU 配置组合不存在优化后的引擎，则会使用 generic 后端作为备用。

目前，optimized 配置文件利用预编译的 TensorRT 引擎，而 generic 配置文件则使用 ONNX。

量化#

对于某些模型和 GPU 配置，可以使用具有降低数值精度的量化引擎。目前，NV-CLIP NIM 支持不同 GPU 配置文件的 fp16 量化。