重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
通过导出到推理优化库部署 NeMo 模型#
NeMo 框架提供脚本和 API,用于将模型导出到两个推理优化库 TensorRT-LLM 和 vLLM,并使用 NVIDIA Triton 推理服务器部署导出的模型。请查看下表以了解支持哪些模型。
支持的 LLM#
下表显示了分布式 NeMo 检查点格式中支持的 LLM 及其推理优化库。
模型名称 |
模型参数 |
NeMo 1.0 到 TensorRT-LLM |
NeMo 2.0 到 TensorRT-LLM |
NeMo 1.0 到 vLLM |
NeMo 2.0 到 vLLM |
---|---|---|---|---|---|
GPT |
2B、8B、43B |
✓ |
✓ |
✗ |
✗ |
Nemotron |
8B、22B |
✓ |
✓ |
✗ |
✗ |
Llama 2 |
7B、13B、70B |
✓ |
✗ |
✓ |
✓ |
Llama 3 |
8B、70B |
✓ |
✓ |
✓ |
✓ |
Llama 3.1 |
8B、70B、405B |
✓ |
✓ |
✓ |
✓ |
Falcon |
7B、40B |
✓ |
✗ |
✗ |
✗ |
Gemma |
2B、7B |
✓ |
✗ |
✓ |
✓ |
StarCoder1 |
15B |
✓ |
✗ |
✗ |
✗ |
StarCoder2 |
3B、7B、15B |
✓ |
✗ |
✓ |
✓ |
Mistral |
7B |
✓ |
✗ |
✓ |
✓ |
Mixtral |
8x7B |
✓ |
✓ |
✓ |
✓ |
注意
当我们把社区模型部署支持从 NeMo 1.0 转移到 NeMo 2.0 时,并非所有模型都已在 NeMo 2.0 中得到支持。上面的支持矩阵显示了当前可用的模型。要使用 NeMo 2.0 中尚不支持的模型,请参阅版本 24.07 的文档,该文档使用 NeMo 1.0。
您可以在下面找到有关基于 TensorRT-LLM 和 vLLM 的部署选项的详细信息。