支持矩阵#
模型#
模型名称 |
模型 ID |
最大 Token 数 |
发布者 |
---|---|---|---|
Llama-3.2-NV-RerankQA-1B-v2 |
nvidia/llama-3-2-nv-rerankqa-1b-v2 |
8192 (优化模型) |
NVIDIA |
NV-RerankQA-Mistral4B-v3 |
nvidia/nv-rerankqa-mistral-4b-v3 |
512 |
NVIDIA |
请注意,当 truncate
设置为 END
时,任何 Query / Passage 对如果长度超过最大 token 长度,将从右侧截断,从 passage 开始。
支持的硬件#
Llama-3.2-NV-RerankQA-1B-v2#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
40 & 80 |
FP16 |
A100 SXM4 |
40 & 80 |
FP16 |
H100 PCIe |
80 |
FP16 & FP8 |
H100 HBM3 |
80 |
FP16 & FP8 |
H100 NVL |
80 |
FP16 & FP8 |
L40s |
48 |
FP16 & FP8 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 & FP8 |
非优化配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU |
3.6 |
FP16 |
19.6 |
NV-RerankQA-Mistral4B-v3#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
80 |
FP16 |
A100 SXM4 |
80 |
FP16 |
H100 HBM3 |
80 |
FP16 & FP8 |
L40s |
48 |
FP 16 & FP8 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 |
非优化配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU |
9 |
FP16 |
23 |
软件#
NVIDIA 驱动程序#
版本 1.0.0 使用 Triton Inference Server 24.05。请参考 发行说明 以了解 Triton 对 NVIDIA 驱动程序的支持。
NVIDIA Container Toolkit#
您的 Docker 环境必须支持 NVIDIA GPU。请参考 NVIDIA Container Toolkit 以获取更多信息。