重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

性能#

NVIDIA NeMo Framework 加速了从数据准备到模型训练再到推理的整个 AI 工作流程端到端。它通过结合最新的训练技术(例如模型并行化、优化的注意力机制等)来为训练高级生成式 AI 模型提供最佳性能,从而实现高训练吞吐量。对于推理,NeMo Framework 提供了一条利用 TensorRT-LLM 的路径,TensorRT-LLM 是一个专门用于加速和优化 NVIDIA GPU 上 LLM 推理的库。

在下面,您可以看到各种大型语言模型的性能基准。

大型语言模型性能摘要#

预训练#

下表显示了各种模型在 FP8 精度下的预训练性能(使用 NeMo 2.0)。

模型

#-GPU 数量

GBS

MBS

序列长度

TP

PP

CP

VP

Tokens / sec / GPU

模型 TFLOP / sec / GPU

预计训练时间(10T tokens,1K GPU,单位:天)

GPT3-175B

128

256

1

2048

4

8

1

6

794

854 (dropout > 0)

142

GPT3-175B

512

2048

2

2048

4

8

1

6

850

915

133

LLAMA3-8B

8

128

1

8192

1

1

2

1

14064

814

8

LLAMA3-70B

64

128

1

8192

4

4

2

5

1633

786

69

LLAMA3-405B

576

252

1

8192

8

9

2

7

312

827

362

Nemotron-8B

64

256

4

4096

2

1

1

1

13003

668

9

Nemotron-15B

64

256

4

4096

4

1

1

1

7550

710

15

Nemotron-22B

64

256

2

4096

2

4

1

10

5831

759

19

Nemotron-340B

128

32

1

4096

8

8

1

12

367

773

308

微调#

下表展示了使用监督微调 (SFT) 和低秩适配器 (LoRA) 在 FP8 精度下 LLaMA2 模型的微调性能(使用 NeMo 2.0)。

对于微调,我们使用 SQuAD-v1.1 数据集,输入打包到 4096 个 tokens。

模型

任务

#-GPU 数量

GBS

MBS

打包序列长度

TP

PP

VP

Tokens / sec / GPU

模型 TFLOP / sec / GPU

预计完成时间(10M tokens,单位:分钟)

LLAMA3-8B

SFT

8

32

1

4096

1

1

1

16891

763

1.23

LLAMA3-70B

SFT

32

32

1

4096

4

4

5

1672

697

3.12

LLAMA3-8B

LoRA

8

32

1

4096

1

1

1

23406

707

0.89

LLAMA3-70B

LoRA

8

32

1

4096

2

4

20

2758

768

7.55

LLAMA3-405B

LoRA

24

24

1

2048

4

6

7

509

827

13.63