支持矩阵#

模型#

模型名称

模型 ID

最大 Token 数

发布者

Llama-3.2-NV-RerankQA-1B-v2

nvidia/llama-3-2-nv-rerankqa-1b-v2

8192 (优化模型)

NVIDIA

NV-RerankQA-Mistral4B-v3

nvidia/nv-rerankqa-mistral-4b-v3

512

NVIDIA

请注意,当 truncate 设置为 END 时,任何 Query / Passage 对如果长度超过最大 token 长度,将从右侧截断,从 passage 开始。

支持的硬件#

Llama-3.2-NV-RerankQA-1B-v2#

GPU

GPU 内存 (GB)

精度

A100 PCIe

40 & 80

FP16

A100 SXM4

40 & 80

FP16

H100 PCIe

80

FP16 & FP8

H100 HBM3

80

FP16 & FP8

H100 NVL

80

FP16 & FP8

L40s

48

FP16 & FP8

A10G

24

FP16

L4

24

FP16 & FP8

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU

3.6

FP16

19.6

NV-RerankQA-Mistral4B-v3#

GPU

GPU 内存 (GB)

精度

A100 PCIe

80

FP16

A100 SXM4

80

FP16

H100 HBM3

80

FP16 & FP8

L40s

48

FP 16 & FP8

A10G

24

FP16

L4

24

FP16

非优化配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU

9

FP16

23

软件#

NVIDIA 驱动程序#

版本 1.0.0 使用 Triton Inference Server 24.05。请参考 发行说明 以了解 Triton 对 NVIDIA 驱动程序的支持。

NVIDIA Container Toolkit#

您的 Docker 环境必须支持 NVIDIA GPU。请参考 NVIDIA Container Toolkit 以获取更多信息。