重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

性能#

NVIDIA NeMo Framework 加速了从数据准备到模型训练再到推理的整个 AI 工作流程端到端。它通过结合最新的训练技术（例如模型并行化、优化的注意力机制等）来为训练高级生成式 AI 模型提供最佳性能，从而实现高训练吞吐量。对于推理，NeMo Framework 提供了一条利用 TensorRT-LLM 的路径，TensorRT-LLM 是一个专门用于加速和优化 NVIDIA GPU 上 LLM 推理的库。

在下面，您可以看到各种大型语言模型的性能基准。

大型语言模型性能摘要#

预训练#

下表显示了各种模型在 FP8 精度下的预训练性能（使用 NeMo 2.0）。

容器：NeMo 24.12
系统：DGX-H100

模型	#-GPU 数量	GBS	MBS	序列长度	TP	PP	CP	VP	Tokens / sec / GPU	模型 TFLOP / sec / GPU	预计训练时间（10T tokens，1K GPU，单位：天）
GPT3-175B	128	256	1	2048	4	8	1	6	794	854 (dropout > 0)	142
GPT3-175B	512	2048	2	2048	4	8	1	6	850	915	133
LLAMA3-8B	8	128	1	8192	1	1	2	1	14064	814	8
LLAMA3-70B	64	128	1	8192	4	4	2	5	1633	786	69
LLAMA3-405B	576	252	1	8192	8	9	2	7	312	827	362
Nemotron-8B	64	256	4	4096	2	1	1	1	13003	668	9
Nemotron-15B	64	256	4	4096	4	1	1	1	7550	710	15
Nemotron-22B	64	256	2	4096	2	4	1	10	5831	759	19
Nemotron-340B	128	32	1	4096	8	8	1	12	367	773	308

微调#

下表展示了使用监督微调 (SFT) 和低秩适配器 (LoRA) 在 FP8 精度下 LLaMA2 模型的微调性能（使用 NeMo 2.0）。

容器：NeMo 24.12
系统：DGX-H100

对于微调，我们使用 SQuAD-v1.1 数据集，输入打包到 4096 个 tokens。

模型	任务	#-GPU 数量	GBS	MBS	打包序列长度	TP	PP	VP	Tokens / sec / GPU	模型 TFLOP / sec / GPU	预计完成时间（10M tokens，单位：分钟）
LLAMA3-8B	SFT	8	32	1	4096	1	1	1	16891	763	1.23
LLAMA3-70B	SFT	32	32	1	4096	4	4	5	1672	697	3.12
LLAMA3-8B	LoRA	8	32	1	4096	1	1	1	23406	707	0.89
LLAMA3-70B	LoRA	8	32	1	4096	2	4	20	2758	768	7.55
LLAMA3-405B	LoRA	24	24	1	2048	4	6	7	509	827	13.63