支持矩阵#
模型#
NeMo Retriever Text Embedding NIM 支持以下模型
模型名称 |
模型 ID |
最大令牌数 |
发布者 |
参数 |
嵌入 |
动态嵌入 |
---|---|---|---|---|---|---|
Llama-3.2-NV-EmbedQA-1B-v2 |
nvidia/llama-3.2-nv-embedqa-1b-v2 |
8192 |
NVIDIA |
1236 |
2048 |
是 |
NV-EmbedQA-E5-v5 |
nvidia/nv-embedqa-e5-v5 |
512 |
NVIDIA |
335 |
1024 |
否 |
NV-EmbedQA-Mistral7B-v2 |
nvidia/nv-embedqa-mistral-7b-v2 |
512 |
NVIDIA |
7110 |
4096 |
否 |
Snowflake’s Arctic-embed-l |
snowflake/arctic-embed-l |
512 |
Snowflake |
335 |
1024 |
否 |
支持的硬件#
Llama-3.2-NV-EmbedQA-1B-v2#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
40 & 80 |
FP16 |
A100 SXM4 |
40 & 80 |
FP16 |
H100 PCIe |
80 |
FP16 & FP8 |
H100 HBM3 |
80 |
FP16 & FP8 |
H100 NVL |
80 |
FP16 & FP8 |
L40s |
48 |
FP16 & FP8 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 & FP8 |
非优化配置#
GPU 内存和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU |
3.6 |
FP16 |
20.2 |
NV-EmbedQA-E5-v5#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
40 & 80 |
FP16 |
A100 SXM4 |
40 & 80 |
FP16 |
H100 PCIe |
80 |
FP16 |
H100 HBM3 |
80 |
FP16 |
H100 NVL |
80 |
FP16 |
L40s |
48 |
FP16 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 |
非优化配置#
GPU 内存和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU |
2 |
FP16 |
17 |
NV-EmbedQA-Mistral7B-v2#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
80 |
FP16 |
A100 SXM4 |
80 |
FP16 |
H100 HBM3 |
80 |
FP8 |
H100 HBM3 |
80 |
FP16 |
L40s |
48 |
FP8 |
L40s |
48 |
FP16 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 |
非优化配置#
GPU 内存和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU |
16 |
FP16 |
30 |
Snowflake’s Arctic-embed-l#
GPU |
GPU 内存 (GB) |
精度 |
---|---|---|
A100 PCIe |
80 |
FP16 |
A100 SXM4 |
80 |
FP16 |
H100 HBM3 |
80 |
FP16 |
L40s |
48 |
FP16 |
A10G |
24 |
FP16 |
L4 |
24 |
FP16 |
非优化配置#
GPU 内存和 磁盘空间 值以 GB 为单位;磁盘空间 包括容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何具有足够 GPU 内存的 NVIDIA GPU 或具有足够聚合内存的多个同构 NVIDIA GPU |
2 |
FP16 |
17 |
软件#
NVIDIA 驱动程序#
版本 1.2.0 使用 Triton Inference Server 24.08。请参阅 发行说明 以了解 Triton 在 NVIDIA 驱动程序支持方面的信息。
NVIDIA Container Toolkit#
您的 Docker 环境必须支持 NVIDIA GPU。请参阅 NVIDIA Container Toolkit 以获取更多信息。