支持矩阵#

模型#

模型名称	模型 ID	最大 Token 数	发布者
Llama-3.2-NV-RerankQA-1B-v2	nvidia/llama-3-2-nv-rerankqa-1b-v2	8192 (优化模型)	NVIDIA
NV-RerankQA-Mistral4B-v3	nvidia/nv-rerankqa-mistral-4b-v3	512	NVIDIA

请注意，当 truncate 设置为 END 时，任何 Query / Passage 对如果长度超过最大 token 长度，将从右侧截断，从 passage 开始。

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU	3.6	FP16	19.6

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或多个具有足够聚合内存的同构 NVIDIA GPU	9	FP16	23

版本 1.0.0 使用 Triton Inference Server 24.05。请参考发行说明以了解 Triton 对 NVIDIA 驱动程序的支持。

您的 Docker 环境必须支持 NVIDIA GPU。请参考 NVIDIA Container Toolkit 以获取更多信息。