支持矩阵#

模型#

NeMo Retriever Text Embedding NIM 支持以下模型

模型名称

模型 ID

最大令牌数

发布者

参数
(百万)

嵌入
维度

动态嵌入
支持

Llama-3.2-NV-EmbedQA-1B-v2

nvidia/llama-3.2-nv-embedqa-1b-v2

8192

NVIDIA

1236

2048

NV-EmbedQA-E5-v5

nvidia/nv-embedqa-e5-v5

512

NVIDIA

335

1024

NV-EmbedQA-Mistral7B-v2

nvidia/nv-embedqa-mistral-7b-v2

512

NVIDIA

7110

4096

Snowflake’s Arctic-embed-l

snowflake/arctic-embed-l

512

Snowflake

335

1024

支持的硬件#

Llama-3.2-NV-EmbedQA-1B-v2#

GPU

GPU 内存 (GB)

精度

A100 PCIe

40 & 80

FP16

A100 SXM4

40 & 80

FP16

H100 PCIe

80

FP16 & FP8

H100 HBM3

80

FP16 & FP8

H100 NVL

80

FP16 & FP8

L40s

48

FP16 & FP8

A10G

24

FP16

L4

24

FP16 & FP8

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU

3.6

FP16

20.2

NV-EmbedQA-E5-v5#

GPU

GPU 内存 (GB)

精度

A100 PCIe

40 & 80

FP16

A100 SXM4

40 & 80

FP16

H100 PCIe

80

FP16

H100 HBM3

80

FP16

H100 NVL

80

FP16

L40s

48

FP16

A10G

24

FP16

L4

24

FP16

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU

2

FP16

17

NV-EmbedQA-Mistral7B-v2#

GPU

GPU 内存 (GB)

精度

A100 PCIe

80

FP16

A100 SXM4

80

FP16

H100 HBM3

80

FP8

H100 HBM3

80

FP16

L40s

48

FP8

L40s

48

FP16

A10G

24

FP16

L4

24

FP16

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU

16

FP16

30

Snowflake’s Arctic-embed-l#

GPU

GPU 内存 (GB)

精度

A100 PCIe

80

FP16

A100 SXM4

80

FP16

H100 HBM3

80

FP16

L40s

48

FP16

A10G

24

FP16

L4

24

FP16

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU

2

FP16

17

软件#

NVIDIA 驱动程序#

版本 1.2.0 使用 Triton Inference Server 24.08。请参阅 发行说明 以了解 Triton 在 NVIDIA 驱动程序支持方面的信息。

NVIDIA Container Toolkit#

您的 Docker 环境必须支持 NVIDIA GPU。请参阅 NVIDIA Container Toolkit 以获取更多信息。