重要提示

您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚未提供的功能的文档,请参阅 NeMo 24.07 文档

部署 NeMo 框架模型#

NVIDIA NeMo 框架为 NeMo 模型提供了各种部署路径,这些路径针对不同的领域量身定制,例如大型语言模型 (LLM) 和多模态模型 (MM)。NeMo 模型主要有两种部署路径:通过导出到推理优化库(如 TensorRT、TensorRT-LLM 或 vLLM)来部署 NeMo 模型,以及在 PyTorch 级别(框架内)部署 NeMo 模型,这两种方式都使用 NVIDIA Triton 推理服务器。要开始在这两条部署路径上提供模型服务,您只需要一个 NeMo 检查点。

虽然目前有许多部署路径可用于不同的领域,但其他路径仍在开发中。随着每个领域独特的部署路径可用,它将添加到本节中。

通过导出推理优化库来部署 NeMo 模型#

对于需要优化性能的场景,NeMo 模型可以利用推理优化库,例如 TensorRT、TensorRT-LLM 和 vLLM,这些库是专门用于加速和优化 NVIDIA GPU 上推理的库。此过程涉及使用 nemo.export 模块将 NeMo 模型转换为与库兼容的格式。此外,NeMo 提供量化方法,包括后训练量化,可用于生成低精度检查点格式以进行高效部署,例如,在 FP8 中。

NVIDIA 还为寻求可靠且可扩展的解决方案来部署生成式 AI 模型的企业提供 NIM。此选项目前仅适用于 LLM。

适用于 LLM 的 NVIDIA NIM#

寻求涵盖本地部署和云部署的全面解决方案的企业可以使用 NVIDIA 推理微服务 (NIM)。此方法利用 NVIDIA AI Enterprise 套件,其中包括对 NVIDIA NeMo、Triton 推理服务器、TensorRT-LLM 和其他 AI 软件的支持。

此选项非常适合需要可靠且可扩展的解决方案来在生产环境中部署生成式 AI 模型的组织。它也因其最快的推理选项而脱颖而出,提供用户友好的脚本和 API。通过利用 TensorRT-LLM Triton 后端,它使用包括飞行中批处理在内的先进批处理算法实现快速推理。请注意,此部署路径仅支持选定的 LLM 模型。

请注意,NIM 容器中仅支持 NeMo 1.0 检查点,并且使用 NIM 部署 NeMo 2.0 检查点的支持仍在进行中。

要了解有关 NVIDIA NIM 的更多信息,请访问 NVIDIA 网站

部署 PyTorch 级别模型(框架内)#

部署 PyTorch 级别模型涉及直接在 NeMo 框架内运行模型。此方法非常直接,无需将模型导出到另一个库。它非常适合开发和测试阶段,在这些阶段,易用性和灵活性至关重要。NeMo 框架支持多节点和多 GPU 推理,从而最大限度地提高吞吐量。此方法允许在 NeMo 环境中进行快速迭代和直接测试。虽然这是最慢的选项,但它为几乎所有 NeMo 模型提供支持。

请查看链接以了解有关部署 大型语言模型 (LLM)多模态模型 (MM) 的更多信息。