模型配置文件#
NIM 模型配置文件定义了 NIM 可以使用的模型引擎。基于配置文件内容哈希的唯一字符串标识每个配置文件。
用户可以在部署时按照配置文件选择步骤选择配置文件。如果用户在部署时未手动选择配置文件,NIM 将自动选择通用的、非优化的配置文件。要了解配置文件及其相应的引擎是如何创建的,请参阅配置文件的创建方式。
模型配置文件嵌入在 NIM 容器的 Model Manifest 文件中,默认情况下该文件位于容器文件系统内的 /opt/nim/etc/config/default/model_manifest.yaml
。
配置文件选择#
要为部署选择配置文件,请使用 -e NIM_MANIFEST_PROFILE=<value>
设置特定的配置文件 ID。您可以从以下列表中为您的 GPU 选择配置文件 ID
GPU |
GPU 内存 |
精度 |
配置文件 ID |
---|---|---|---|
H100 SXM |
80 |
FP16 |
420b5bb2-cd51-4dac-be21-759f3df4e441 |
H100 PCIe |
80 |
FP16 |
420b5bb2-cd51-4dac-be21-759f3df4e441 |
A100 SXM |
80 |
FP16 |
3f5c5926-add5-402d-8877-c0798ffbb9e9 |
A100 PCIe |
80 |
FP16 |
3f5c5926-add5-402d-8877-c0798ffbb9e9 |
L40S |
48 |
FP16 |
3c28d914-ebbd-418b-8c5a-2a0da64bf4e3 |
A10G |
24 |
FP16 |
d892ff5f-a51e-417b-bda8-63a004f4c3d7 |
A6000 Ada |
48 |
FP16 |
a19c7bf8-b6c4-47b3-b519-0b67840c9951 |
RTX 4090 |
48 |
FP16 |
38ce5361-fd45-4d48-94b0-1ca7eb3c5d0b |
如果您在不受支持的 GPU 上运行,NIM 将选择通用的、非优化的配置文件,其配置文件 ID 为 afd81bb5-1b82-4816-a1bd-312dd380e4d1
。
配置文件的创建方式#
NIM 微服务有两种主要的配置文件类别:optimized
(优化后的)和 generic
(通用的)。optimized
配置文件是为一部分 GPU 和模型创建的,并利用模型和硬件特定的优化,旨在提高大型语言模型的性能。随着时间的推移,optimized
引擎存在的模型和 GPU 的范围将会扩大。但是,如果特定的模型和 GPU 配置组合不存在优化后的引擎,则会使用 generic
后端作为备用。
目前,optimized
配置文件利用预编译的 TensorRT 引擎,而 generic
配置文件则使用 ONNX。
量化#
对于某些模型和 GPU 配置,可以使用具有降低数值精度的量化引擎。目前,NV-CLIP NIM 支持不同 GPU 配置文件的 fp16
量化。