重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
性能#
NVIDIA NeMo Framework 加速了从数据准备到模型训练再到推理的整个 AI 工作流程端到端。它通过结合最新的训练技术(例如模型并行化、优化的注意力机制等)来为训练高级生成式 AI 模型提供最佳性能,从而实现高训练吞吐量。对于推理,NeMo Framework 提供了一条利用 TensorRT-LLM 的路径,TensorRT-LLM 是一个专门用于加速和优化 NVIDIA GPU 上 LLM 推理的库。
在下面,您可以看到各种大型语言模型的性能基准。
大型语言模型性能摘要#
预训练#
下表显示了各种模型在 FP8 精度下的预训练性能(使用 NeMo 2.0)。
容器:NeMo 24.12
系统:DGX-H100
模型 |
#-GPU 数量 |
GBS |
MBS |
序列长度 |
TP |
PP |
CP |
VP |
Tokens / sec / GPU |
模型 TFLOP / sec / GPU |
预计训练时间(10T tokens,1K GPU,单位:天) |
---|---|---|---|---|---|---|---|---|---|---|---|
GPT3-175B |
128 |
256 |
1 |
2048 |
4 |
8 |
1 |
6 |
794 |
854 (dropout > 0) |
142 |
GPT3-175B |
512 |
2048 |
2 |
2048 |
4 |
8 |
1 |
6 |
850 |
133 |
|
LLAMA3-8B |
8 |
128 |
1 |
8192 |
1 |
1 |
2 |
1 |
14064 |
814 |
8 |
LLAMA3-70B |
64 |
128 |
1 |
8192 |
4 |
4 |
2 |
5 |
1633 |
786 |
69 |
LLAMA3-405B |
576 |
252 |
1 |
8192 |
8 |
9 |
2 |
7 |
312 |
827 |
362 |
Nemotron-8B |
64 |
256 |
4 |
4096 |
2 |
1 |
1 |
1 |
13003 |
668 |
9 |
Nemotron-15B |
64 |
256 |
4 |
4096 |
4 |
1 |
1 |
1 |
7550 |
710 |
15 |
Nemotron-22B |
64 |
256 |
2 |
4096 |
2 |
4 |
1 |
10 |
5831 |
759 |
19 |
Nemotron-340B |
128 |
32 |
1 |
4096 |
8 |
8 |
1 |
12 |
367 |
773 |
308 |
微调#
下表展示了使用监督微调 (SFT) 和低秩适配器 (LoRA) 在 FP8 精度下 LLaMA2 模型的微调性能(使用 NeMo 2.0)。
容器:NeMo 24.12
系统:DGX-H100
对于微调,我们使用 SQuAD-v1.1 数据集,输入打包到 4096 个 tokens。
模型 |
任务 |
#-GPU 数量 |
GBS |
MBS |
打包序列长度 |
TP |
PP |
VP |
Tokens / sec / GPU |
模型 TFLOP / sec / GPU |
预计完成时间(10M tokens,单位:分钟) |
---|---|---|---|---|---|---|---|---|---|---|---|
LLAMA3-8B |
SFT |
8 |
32 |
1 |
4096 |
1 |
1 |
1 |
16891 |
763 |
1.23 |
LLAMA3-70B |
SFT |
32 |
32 |
1 |
4096 |
4 |
4 |
5 |
1672 |
697 |
3.12 |
LLAMA3-8B |
LoRA |
8 |
32 |
1 |
4096 |
1 |
1 |
1 |
23406 |
707 |
0.89 |
LLAMA3-70B |
LoRA |
8 |
32 |
1 |
4096 |
2 |
4 |
20 |
2758 |
768 |
7.55 |
LLAMA3-405B |
LoRA |
24 |
24 |
1 |
2048 |
4 |
6 |
7 |
509 |
827 |
13.63 |