支持矩阵#

硬件#

NVIDIA NIM 视觉语言模型 (VLMs) 应该（但不保证）在任何 NVIDIA GPU 上运行，前提是 GPU 具有足够的内存。它们也可以在具有足够总内存和 CUDA 计算能力 > 7.0 (bfloat16 为 8.0) 的多个同构 NVIDIA GPU 上运行。有关更多信息，请参阅以下支持的模型部分。

软件#

Linux 操作系统（建议使用 Ubuntu 20.04 或更高版本）
NVIDIA 驱动程序 >= 535
NVIDIA Docker >= 23.0.1

支持的模型#

这些模型使用 TRT-LLM 进行了优化，并在 NGC 上作为预构建的优化引擎提供，应使用聊天完成端点。

Llama-3.2-11B-Vision-Instruct#

概述#

Meta Llama 3.2 Vision 多模态大型语言模型 (LLM) 系列是预训练和指令微调的图像推理生成模型集合，模型大小为 11B 和 90B（文本 + 图像输入 / 文本输出）。Llama 3.2 Vision 指令微调模型针对视觉识别、图像推理、图像描述和回答关于图像的常见问题进行了优化。这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。Llama 3.2 Vision 模型已准备好用于商业用途。

对于希望优先考虑响应速度并具有适中计算预算的用户，建议使用 11B 模型。

重要提示

此模型仅接受包含单张图像的请求，大于 1120x1120px 的图像将被缩小。

重要提示

此模型不支持工具使用。

优化配置#

NVIDIA 建议容器和模型至少需要 50GB 磁盘空间。

GPU 显存值以 GB 为单位；优化方向指示模型优化的目标。

GPU	GPU 显存	精度	优化方向	GPU 数量
H200 SXM	141	BF16	延迟	2
H200 SXM	141	FP8	延迟	2
H200 SXM	141	BF16	吞吐量	1
H200 SXM	141	FP8	吞吐量	1
H100 SXM	80	BF16	延迟	2
H100 SXM	80	FP8	延迟	2
H100 SXM	80	BF16	吞吐量	1
H100 SXM	80	FP8	吞吐量	1
A100 SXM	80	BF16	延迟	2
A100 SXM	80	BF16	吞吐量	1
H100 PCIe	80	BF16	延迟	2
H100 PCIe	80	FP8	延迟	2
H100 PCIe	80	BF16	吞吐量	1
H100 PCIe	80	FP8	吞吐量	1
A100 PCIe	80	BF16	延迟	2
A100 PCIe	80	BF16	吞吐量	1
L40S	48	BF16	延迟	4
L40S	48	BF16	吞吐量	2
A10G	24	BF16	延迟	8
A10G	24	BF16	吞吐量	4

非优化配置#

对于上面未列出的 GPU 配置，NIM for VLMs 通过自定义 vLLM 后端提供有竞争力的性能。任何具有足够内存的 NVIDIA GPU，或多个具有足够聚合内存的同构 NVIDIA GPU，应该能够运行此模型，但这不能保证。

重要提示

需要 CUDA 计算能力 >= 7.0（bfloat16 为 8.0）。

GPU 显存和磁盘空间值以 GB 为单位

GPU 显存	精度	磁盘空间
60	BF16	50

重要提示

如果 KV 缓存空间不足以容纳完整大小的序列，请尝试在启动 NIM时，通过将环境变量 NIM_MAX_MODEL_LEN 设置为较小的值（例如，32,768）来减小模型的上下文长度。

Llama-3.2-90B-Vision-Instruct#

概述#

Meta Llama 3.2 Vision 多模态大型语言模型 (LLM) 系列是预训练和指令微调的图像推理生成模型集合，模型大小为 11B 和 90B（文本 + 图像输入 / 文本输出）。Llama 3.2 Vision 指令微调模型针对视觉识别、图像推理、图像描述和回答关于图像的常见问题进行了优化。这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。Llama 3.2 Vision 模型已准备好用于商业用途。

对于希望优先考虑模型准确性并具有较高计算预算的用户，建议使用 90B 模型。

重要提示

此模型仅接受包含单张图像的请求，大于 1120x1120px 的图像将被缩小。

重要提示

此模型不支持工具使用。

优化配置#

NVIDIA 建议容器和模型至少需要 200GB 磁盘空间。

GPU 显存值以 GB 为单位；优化方向指示模型优化的目标。

GPU	GPU 显存	精度	优化方向	GPU 数量
H200 SXM	141	BF16	延迟	4
H200 SXM	141	FP8	延迟	2
H200 SXM	141	BF16	吞吐量	2
H200 SXM	141	FP8	吞吐量	1
H100 SXM	80	BF16	延迟	8
H100 SXM	80	FP8	延迟	4
H100 SXM	80	BF16	吞吐量	4
H100 SXM	80	FP8	吞吐量	2
A100 SXM	80	BF16	延迟	8
A100 SXM	80	BF16	吞吐量	4
H100 PCIe	80	BF16	延迟	8
H100 PCIe	80	FP8	延迟	4
H100 PCIe	80	BF16	吞吐量	4
H100 PCIe	80	FP8	吞吐量	2
A100 PCIe	80	BF16	延迟	8
A100 PCIe	80	BF16	吞吐量	4
L40S	48	BF16	吞吐量	8

非优化配置#

对于上面未列出的 GPU 配置，NIM for VLMs 通过自定义 vLLM 后端提供有竞争力的性能。任何具有足够内存的 NVIDIA GPU，或多个具有足够聚合内存的同构 NVIDIA GPU，应该能够运行此模型，但这不能保证。

重要提示

需要 CUDA 计算能力 >= 7.0（bfloat16 为 8.0）。

GPU 显存值以 GB 为单位；优化方向指示模型优化的目标。

GPU 显存	精度	磁盘空间
240	BF16	200

重要提示

如果 KV 缓存空间不足以容纳完整大小的序列，请尝试在启动 NIM时，通过将环境变量 NIM_MAX_MODEL_LEN 设置为较小的值（例如，32,768）来减小模型的上下文长度。