重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

通过导出到推理优化库部署 NeMo 模型#

NeMo 框架提供脚本和 API,用于将模型导出到两个推理优化库 TensorRT-LLM 和 vLLM,并使用 NVIDIA Triton 推理服务器部署导出的模型。请查看下表以了解支持哪些模型。

支持的 LLM#

下表显示了分布式 NeMo 检查点格式中支持的 LLM 及其推理优化库。

模型名称

模型参数

NeMo 1.0 到 TensorRT-LLM

NeMo 2.0 到 TensorRT-LLM

NeMo 1.0 到 vLLM

NeMo 2.0 到 vLLM

GPT

2B、8B、43B

Nemotron

8B、22B

Llama 2

7B、13B、70B

Llama 3

8B、70B

Llama 3.1

8B、70B、405B

Falcon

7B、40B

Gemma

2B、7B

StarCoder1

15B

StarCoder2

3B、7B、15B

Mistral

7B

Mixtral

8x7B

注意

当我们把社区模型部署支持从 NeMo 1.0 转移到 NeMo 2.0 时,并非所有模型都已在 NeMo 2.0 中得到支持。上面的支持矩阵显示了当前可用的模型。要使用 NeMo 2.0 中尚不支持的模型,请参阅版本 24.07 的文档,该文档使用 NeMo 1.0。

您可以在下面找到有关基于 TensorRT-LLM 和 vLLM 的部署选项的详细信息。