支持矩阵#

硬件#

NVIDIA NIM 视觉语言模型 (VLMs) 应该(但不保证)在任何 NVIDIA GPU 上运行,前提是 GPU 具有足够的内存。它们也可以在具有足够总内存和 CUDA 计算能力 > 7.0 (bfloat16 为 8.0) 的多个同构 NVIDIA GPU 上运行。有关更多信息,请参阅以下支持的模型部分。

软件#

  • Linux 操作系统(建议使用 Ubuntu 20.04 或更高版本)

  • NVIDIA 驱动程序 >= 535

  • NVIDIA Docker >= 23.0.1

支持的模型#

这些模型使用 TRT-LLM 进行了优化,并在 NGC 上作为预构建的优化引擎提供,应使用 聊天完成端点

Llama-3.2-11B-Vision-Instruct#

概述#

Meta Llama 3.2 Vision 多模态大型语言模型 (LLM) 系列是预训练和指令微调的图像推理生成模型集合,模型大小为 11B 和 90B(文本 + 图像输入 / 文本输出)。Llama 3.2 Vision 指令微调模型针对视觉识别、图像推理、图像描述和回答关于图像的常见问题进行了优化。这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。Llama 3.2 Vision 模型已准备好用于商业用途。

对于希望优先考虑响应速度并具有适中计算预算的用户,建议使用 11B 模型。

重要提示

此模型仅接受包含单张图像的请求,大于 1120x1120px 的图像将被缩小。

重要提示

此模型不支持工具使用。

优化配置#

NVIDIA 建议容器和模型至少需要 50GB 磁盘空间。

GPU 显存值以 GB 为单位;优化方向指示模型优化的目标。

GPU

GPU 显存

精度

优化方向

GPU 数量

H200 SXM

141

BF16

延迟

2

H200 SXM

141

FP8

延迟

2

H200 SXM

141

BF16

吞吐量

1

H200 SXM

141

FP8

吞吐量

1

H100 SXM

80

BF16

延迟

2

H100 SXM

80

FP8

延迟

2

H100 SXM

80

BF16

吞吐量

1

H100 SXM

80

FP8

吞吐量

1

A100 SXM

80

BF16

延迟

2

A100 SXM

80

BF16

吞吐量

1

H100 PCIe

80

BF16

延迟

2

H100 PCIe

80

FP8

延迟

2

H100 PCIe

80

BF16

吞吐量

1

H100 PCIe

80

FP8

吞吐量

1

A100 PCIe

80

BF16

延迟

2

A100 PCIe

80

BF16

吞吐量

1

L40S

48

BF16

延迟

4

L40S

48

BF16

吞吐量

2

A10G

24

BF16

延迟

8

A10G

24

BF16

吞吐量

4

非优化配置#

对于上面未列出的 GPU 配置,NIM for VLMs 通过自定义 vLLM 后端提供有竞争力的性能。任何具有足够内存的 NVIDIA GPU,或多个具有足够聚合内存的同构 NVIDIA GPU,应该能够运行此模型,但这不能保证。

重要提示

需要 CUDA 计算能力 >= 7.0(bfloat16 为 8.0)。

GPU 显存磁盘空间值以 GB 为单位

GPU 显存

精度

磁盘空间

60

BF16

50

重要提示

如果 KV 缓存空间不足以容纳完整大小的序列,请尝试在启动 NIM时,通过将环境变量 NIM_MAX_MODEL_LEN 设置为较小的值(例如,32,768)来减小模型的上下文长度。

Llama-3.2-90B-Vision-Instruct#

概述#

Meta Llama 3.2 Vision 多模态大型语言模型 (LLM) 系列是预训练和指令微调的图像推理生成模型集合,模型大小为 11B 和 90B(文本 + 图像输入 / 文本输出)。Llama 3.2 Vision 指令微调模型针对视觉识别、图像推理、图像描述和回答关于图像的常见问题进行了优化。这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。Llama 3.2 Vision 模型已准备好用于商业用途。

对于希望优先考虑模型准确性并具有较高计算预算的用户,建议使用 90B 模型。

重要提示

此模型仅接受包含单张图像的请求,大于 1120x1120px 的图像将被缩小。

重要提示

此模型不支持工具使用。

优化配置#

NVIDIA 建议容器和模型至少需要 200GB 磁盘空间。

GPU 显存值以 GB 为单位;优化方向指示模型优化的目标。

GPU

GPU 显存

精度

优化方向

GPU 数量

H200 SXM

141

BF16

延迟

4

H200 SXM

141

FP8

延迟

2

H200 SXM

141

BF16

吞吐量

2

H200 SXM

141

FP8

吞吐量

1

H100 SXM

80

BF16

延迟

8

H100 SXM

80

FP8

延迟

4

H100 SXM

80

BF16

吞吐量

4

H100 SXM

80

FP8

吞吐量

2

A100 SXM

80

BF16

延迟

8

A100 SXM

80

BF16

吞吐量

4

H100 PCIe

80

BF16

延迟

8

H100 PCIe

80

FP8

延迟

4

H100 PCIe

80

BF16

吞吐量

4

H100 PCIe

80

FP8

吞吐量

2

A100 PCIe

80

BF16

延迟

8

A100 PCIe

80

BF16

吞吐量

4

L40S

48

BF16

吞吐量

8

非优化配置#

对于上面未列出的 GPU 配置,NIM for VLMs 通过自定义 vLLM 后端提供有竞争力的性能。任何具有足够内存的 NVIDIA GPU,或多个具有足够聚合内存的同构 NVIDIA GPU,应该能够运行此模型,但这不能保证。

重要提示

需要 CUDA 计算能力 >= 7.0(bfloat16 为 8.0)。

GPU 显存值以 GB 为单位;优化方向指示模型优化的目标。

GPU 显存

精度

磁盘空间

240

BF16

200

重要提示

如果 KV 缓存空间不足以容纳完整大小的序列,请尝试在启动 NIM时,通过将环境变量 NIM_MAX_MODEL_LEN 设置为较小的值(例如,32,768)来减小模型的上下文长度。