模型配置文件#

NIM 模型配置文件定义了 NIM 可以使用的模型引擎。基于配置文件内容哈希的唯一字符串标识每个配置文件。

用户可以在部署时按照配置文件选择步骤选择配置文件。如果用户在部署时未手动选择配置文件,NIM 将自动选择通用的、非优化的配置文件。要了解配置文件及其相应的引擎是如何创建的,请参阅配置文件的创建方式

模型配置文件嵌入在 NIM 容器的 Model Manifest 文件中,默认情况下该文件位于容器文件系统内的 /opt/nim/etc/config/default/model_manifest.yaml

配置文件选择#

要为部署选择配置文件,请使用 -e NIM_MANIFEST_PROFILE=<value> 设置特定的配置文件 ID。您可以从以下列表中为您的 GPU 选择配置文件 ID

GPU

GPU 内存

精度

配置文件 ID

H100 SXM

80

FP16

420b5bb2-cd51-4dac-be21-759f3df4e441

H100 PCIe

80

FP16

420b5bb2-cd51-4dac-be21-759f3df4e441

A100 SXM

80

FP16

3f5c5926-add5-402d-8877-c0798ffbb9e9

A100 PCIe

80

FP16

3f5c5926-add5-402d-8877-c0798ffbb9e9

L40S

48

FP16

3c28d914-ebbd-418b-8c5a-2a0da64bf4e3

A10G

24

FP16

d892ff5f-a51e-417b-bda8-63a004f4c3d7

A6000 Ada

48

FP16

a19c7bf8-b6c4-47b3-b519-0b67840c9951

RTX 4090

48

FP16

38ce5361-fd45-4d48-94b0-1ca7eb3c5d0b

如果您在不受支持的 GPU 上运行,NIM 将选择通用的、非优化的配置文件,其配置文件 ID 为 afd81bb5-1b82-4816-a1bd-312dd380e4d1

配置文件的创建方式#

NIM 微服务有两种主要的配置文件类别:optimized(优化后的)和 generic(通用的)。optimized 配置文件是为一部分 GPU 和模型创建的,并利用模型和硬件特定的优化,旨在提高大型语言模型的性能。随着时间的推移,optimized 引擎存在的模型和 GPU 的范围将会扩大。但是,如果特定的模型和 GPU 配置组合不存在优化后的引擎,则会使用 generic 后端作为备用。

目前,optimized 配置文件利用预编译的 TensorRT 引擎,而 generic 配置文件则使用 ONNX

量化#

对于某些模型和 GPU 配置,可以使用具有降低数值精度的量化引擎。目前,NV-CLIP NIM 支持不同 GPU 配置文件的 fp16 量化。