支持矩阵#

模型#

NeMo Retriever Text Embedding NIM 支持以下模型

模型名称	模型 ID	最大令牌数	发布者	参数（百万）	嵌入维度	动态嵌入支持
Llama-3.2-NV-EmbedQA-1B-v2	nvidia/llama-3.2-nv-embedqa-1b-v2	8192	NVIDIA	1236	2048	是
NV-EmbedQA-E5-v5	nvidia/nv-embedqa-e5-v5	512	NVIDIA	335	1024	否
NV-EmbedQA-Mistral7B-v2	nvidia/nv-embedqa-mistral-7b-v2	512	NVIDIA	7110	4096	否
Snowflake’s Arctic-embed-l	snowflake/arctic-embed-l	512	Snowflake	335	1024	否

GPU 内存和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU	3.6	FP16	20.2

GPU 内存和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU	2	FP16	17

GPU 内存和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU	16	FP16	30

GPU 内存和 磁盘空间 值以 GB 为单位；磁盘空间 包括容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU	2	FP16	17

版本 1.2.0 使用 Triton Inference Server 24.08。请参阅发行说明以了解 Triton 在 NVIDIA 驱动程序支持方面的信息。

您的 Docker 环境必须支持 NVIDIA GPU。请参阅 NVIDIA Container Toolkit 以获取更多信息。