重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

通过导出到推理优化库部署 NeMo 模型#

NeMo 框架提供脚本和 API，用于将模型导出到两个推理优化库 TensorRT-LLM 和 vLLM，并使用 NVIDIA Triton 推理服务器部署导出的模型。请查看下表以了解支持哪些模型。

支持的 LLM#

下表显示了分布式 NeMo 检查点格式中支持的 LLM 及其推理优化库。

模型名称	模型参数	NeMo 1.0 到 TensorRT-LLM	NeMo 2.0 到 TensorRT-LLM	NeMo 1.0 到 vLLM	NeMo 2.0 到 vLLM
GPT	2B、8B、43B	✓	✓	✗	✗
Nemotron	8B、22B	✓	✓	✗	✗
Llama 2	7B、13B、70B	✓	✗	✓	✓
Llama 3	8B、70B	✓	✓	✓	✓
Llama 3.1	8B、70B、405B	✓	✓	✓	✓
Falcon	7B、40B	✓	✗	✗	✗
Gemma	2B、7B	✓	✗	✓	✓
StarCoder1	15B	✓	✗	✗	✗
StarCoder2	3B、7B、15B	✓	✗	✓	✓
Mistral	7B	✓	✗	✓	✓
Mixtral	8x7B	✓	✓	✓	✓

注意

当我们把社区模型部署支持从 NeMo 1.0 转移到 NeMo 2.0 时，并非所有模型都已在 NeMo 2.0 中得到支持。上面的支持矩阵显示了当前可用的模型。要使用 NeMo 2.0 中尚不支持的模型，请参阅版本 24.07 的文档，该文档使用 NeMo 1.0。

您可以在下面找到有关基于 TensorRT-LLM 和 vLLM 的部署选项的详细信息。