支持的模型#

GPU#

以下章节中列出的 GPU 具有以下规格。

GPU

系列

内存

H200

SXM/NVL (NVLink)

141 GB

H100

SXM/NVL (NVLink)

80 GB

A100

SXM/NVL (NVLink)

80 GB

L40S

PCIe

48 GB

A10G

PCIe

24 GB

4080

16 GB

4090

24 GB

5080

16 GB

5090

32 GB

6000

32 GB

优化的模型#

以下模型使用 TRT-LLM 进行了优化,并在 NGC 上作为预构建的优化引擎提供,应使用聊天完成端点。对于 vGPU 环境,以下章节中的 GPU 内存值指的是总 GPU 内存,包括为 vGPU 设置预留的 GPU 内存。

NVIDIA 还提供通用模型配置文件,这些配置文件可与任何具有足够内存容量的 NVIDIA GPU(或 GPU 集)一起运行。通用模型配置文件的标识特征是在配置文件名称中存在 local_buildvllm。在没有兼容的优化配置文件的系统上,将自动选择通用配置文件。在优化配置文件可用时,它们优先于通用配置文件,但您可以按照配置文件选择中的步骤,选择在任何系统上部署通用配置文件。

您还可以在模型中找到关于这些模型支持的功能(例如 LoRA)的更多信息。

Code Llama 13B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP16

吞吐量

2

24.63

H100 SXM

FP16

延迟

4

25.32

A100 SXM

FP16

吞吐量

2

24.63

A100 SXM

FP16

延迟

4

25.31

L40S

FP16

吞吐量

2

25.32

L40S

FP16

延迟

2

24.63

A10G

FP16

吞吐量

4

25.32

A10G

FP16

延迟

8

26.69

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Code Llama 34B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

32.17

H100 SXM

FP8

延迟

4

32.42

H100 SXM

FP16

吞吐量

2

63.48

H100 SXM

FP16

延迟

4

64.59

A100 SXM

FP16

吞吐量

2

63.48

A100 SXM

FP16

延迟

4

64.59

L40S

FP8

吞吐量

4

32.42

L40S

FP16

吞吐量

4

64.58

A10G

FP16

吞吐量

4

64.58

A10G

FP16

延迟

8

66.8

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Code Llama 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

4

65.47

H100 SXM

FP8

延迟

8

66.37

H100 SXM

FP16

吞吐量

4

130.35

H100 SXM

FP16

延迟

8

66.37

A100 SXM

FP16

吞吐量

4

130.35

A100 SXM

FP16

延迟

8

132.71

A10G

FP16

吞吐量

8

132.69

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Gemma 2 2B#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: BF16

  • GPU 数量: 1, 2

Gemma 2 9B#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: BF16

  • GPU 数量: 1, 2, 或 4

(Meta) Llama 2 7B Chat#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

1

6.57

H100 SXM

FP8

延迟

2

6.66

H100 SXM

FP16

吞吐量

1

12.62

H100 SXM

FP16

吞吐量 LoRA

1

12.63

H100 SXM

FP16

延迟

2

12.93

A100 SXM

FP16

吞吐量

1

15.54

A100 SXM

FP16

吞吐量 LoRA

1

12.63

A100 SXM

FP16

延迟

2

12.92

L40S

FP8

吞吐量

1

6.57

L40S

FP8

延迟

2

6.64

L40S

FP16

吞吐量

1

12.64

L40S

FP16

吞吐量 LoRA

1

12.65

L40S

FP16

延迟

2

12.95

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

(Meta) Llama 2 13B Chat#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

延迟

2

12.6

H100 SXM

FP16

吞吐量

1

24.33

H100 SXM

FP16

吞吐量 LoRA

1

24.35

H100 SXM

FP16

延迟

2

24.71

A100 SXM

FP16

吞吐量

1

24.34

A100 SXM

FP16

吞吐量 LoRA

1

24.37

A100 SXM

FP16

延迟

2

24.74

L40S

FP8

吞吐量

1

12.49

L40S

FP8

延迟

2

12.59

L40S

FP16

吞吐量

1

24.33

L40S

FP16

吞吐量 LoRA

1

24.37

L40S

FP16

延迟

2

24.7

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

(Meta) Llama 2 70B Chat#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

65.08

H100 SXM

FP8

延迟

4

65.36

H100 SXM

FP16

吞吐量

4

130.52

H100 SXM

FP16

吞吐量 LoRA

4

130.6

H100 SXM

FP16

延迟

8

133.18

A100 SXM

FP16

吞吐量

4

130.52

A100 SXM

FP16

吞吐量 LoRA

4

130.5

A100 SXM

FP16

延迟

8

133.12

L40S

FP8

吞吐量

4

63.35

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 SQLCoder 8B#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

1

8.52

H100 SXM

FP8

延迟

2

8.61

H100 SXM

FP16

吞吐量

1

15

H100 SXM

FP16

延迟

2

16.02

L40S

FP8

吞吐量

1

8.53

L40S

FP8

延迟

2

8.61

L40S

FP16

吞吐量

1

15

L40S

FP16

延迟

2

16.02

A10G

FP16

吞吐量

1

15

A10G

FP16

吞吐量

2

16.02

A10G

FP16

延迟

2

16.02

A10G

FP16

延迟

4

18.06

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 Swallow 70B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

68.42

H100 SXM

FP8

延迟

4

69.3

H100 SXM

FP16

吞吐量

2

137.7

H100 SXM

FP16

延迟

4

145.94

A100 SXM

FP16

吞吐量

2

137.7

A100 SXM

FP16

延迟

2

137.7

L40S

FP8

吞吐量

2

68.48

A10G

FP16

吞吐量

4

145.93

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 Taiwan 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

68.42

H100 SXM

FP8

延迟

4

145.94

H100 SXM

FP16

吞吐量

2

137.7

H100 SXM

FP16

延迟

4

137.7

A100 SXM

FP16

吞吐量

2

137.7

A100 SXM

FP16

延迟

2

145.94

L40S

FP8

吞吐量

2

68.48

A10G

FP16

吞吐量

4

145.93

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 8B Base#

优化的配置#

配置文件 用于模型优化的目标。

GPU

精度

配置文件

GPU 数量

H100 SXM

BF16

延迟

2

H100 SXM

FP8

延迟

2

H100 SXM

BF16

吞吐量

1

H100 SXM

FP8

吞吐量

1

A100 SXM

BF16

延迟

2

A100 SXM

BF16

吞吐量

1

L40S

BF16

延迟

2

L40S

BF16

吞吐量

2

A10G

BF16

延迟

4

A10G

BF16

吞吐量

2

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

24

FP16

15

Llama 3.1 8B Instruct#

优化的配置#

配置文件 用于模型优化的目标。

GPU

配置文件

GPU 数量

H100 SXM

吞吐量

1

H100 SXM

延迟

2

H100 NVL

吞吐量

1

H100 NVL

延迟

2

A100 SXM

吞吐量

1

A100 SXM

延迟

2

L40S

吞吐量

2

L40S

延迟

4

A10G

吞吐量

2

A10G

延迟

4

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

24

FP16

15

Llama 3.1 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标。

GPU

精度

配置文件

GPU 数量

磁盘空间

H200 SXM

FP8

吞吐量

1

67.87

H200 SXM

FP8

延迟

2

68.2

H200 SXM

BF16

吞吐量

2

133.72

H200 SXM

BF16

延迟

4

137.99

H100 SXM

FP8

吞吐量

2

68.2

H100 SXM

FP8

吞吐量

4

68.72

H100 SXM

FP8

延迟

8

69.71

H100 SXM

BF16

吞吐量

4

138.39

H100 SXM

BF16

延迟

8

147.66

H100 NVL

FP8

吞吐量

2

68.2

H100 NVL

FP8

延迟

4

68.72

H100 NVL

BF16

吞吐量

2

133.95

H100 NVL

BF16

吞吐量

4

138.4

H100 NVL

BF16

延迟

8

147.37

A100 SXM

BF16

吞吐量

4

138.53

A100 SXM

BF16

延迟

8

147.44

L40S

BF16

吞吐量

4

138.49

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 405B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

延迟

8

388.75

H100 SXM

FP16

延迟

16

794.9

A100 SXM

PP16

延迟

16

798.2

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

240

FP16

100 SXM

Llama 3.1 Nemotron 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

68.18

H100 SXM

FP8

吞吐量

4

68.64

H100 SXM

FP8

延迟

8

69.77

H100 SXM

FP16

吞吐量

4

137.94

H100 SXM

FP16

延迟

8

146.41

A100 SXM

FP16

吞吐量

4

137.93

A100 SXM

FP16

延迟

8

146.41

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 Swallow 8B Instruct v0.1#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: BF16

  • GPU 数量: 1, 2, 4

Llama 3.1 Swallow 70B Instruct v0.1#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: BF16

  • GPU 数量: 2, 4, 8

Llama 3.3 70B Instruct#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: BF16

  • GPU 数量: 4, 8

Meta Llama 3 8B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP16

吞吐量

1

28

H100 SXM

FP16

延迟

2

28

A100 SXM

FP16

吞吐量

1

28

A100 SXM

FP16

延迟

2

28

L40S

FP8

吞吐量

1

20.5

L40S

FP8

延迟

2

20.5

L40S

FP16

吞吐量

1

28

A10G

FP16

吞吐量

1

28

A10G

FP16

延迟

2

28

通用配置#

磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

24

FP16

16

Meta Llama 3 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

4

82

H100 SXM

FP8

延迟

8

82

H100 SXM

FP16

吞吐量

4

158

H100 SXM

FP16

延迟

8

158

A100 SXM

FP16

吞吐量

4

158

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

240

FP16

100 SXM

Mistral 7B Instruct V0.3#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

1

7.08

H100 SXM

FP8

延迟

2

7.19

H100 SXM

BF16

吞吐量

1

13.56

H100 SXM

BF16

延迟

2

7.19

A100 SXM

BF16

吞吐量

1

13.56

A100 SXM

BF16

延迟

2

13.87

L40S

FP8

吞吐量

1

7.08

L40S

FP8

延迟

2

7.16

L40S

BF16

吞吐量

1

13.55

L40S

BF16

延迟

2

13.85

A10G

BF16

吞吐量

2

13.87

A10G

BF16

延迟

4

14.48

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

24

FP16

16

Mistral NeMo 12B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

延迟

2

13.82

H100 SXM

FP16

吞吐量

1

23.35

H100 SXM

FP16

延迟

2

25.14

A100 SXM

FP16

吞吐量

1

23.35

A100 SXM

FP16

延迟

2

25.14

L40S

FP8

吞吐量

2

13.83

L40S

FP8

延迟

4

15.01

L40S

FP16

吞吐量

2

25.14

L40S

FP16

延迟

4

28.71

A10G

FP16

吞吐量

4

28.71

A10G

FP16

延迟

8

35.87

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Mistral NeMo Minitron 8B 8K Instruct#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

1

8.91

H100 SXM

FP8

延迟

2

9.03

H100 SXM

FP16

吞吐量

1

15.72

H100 SXM

FP16

延迟

2

16.78

A100 SXM

FP16

吞吐量

1

15.72

A100 SXM

FP16

延迟

2

16.78

L40S

FP8

吞吐量

1

8.92

L40S

FP8

延迟

2

9.02

L40S

FP16

吞吐量

1

15.72

L40S

FP16

延迟

2

16.77

A10G

FP16

吞吐量

2

16.81

A10G

FP16

延迟

4

15.72

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Mixtral 8x7B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

100

H100 SXM

FP8

延迟

4

100

H100 SXM

INT8WO

吞吐量

2

100

H100 SXM

INT8WO

延迟

4

100

H100 SXM

FP16

吞吐量

2

100

H100 SXM

FP16

延迟

4

100

A100 SXM

FP16

吞吐量

2

100

A100 SXM

FP16

延迟

4

100

L40S

FP8

吞吐量

4

100

L40S

FP16

吞吐量

4

100

A10G

FP16

吞吐量

8

100

通用配置#

GPU 内存磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。

GPU

GPU 内存

精度

磁盘空间

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

24

FP16

16

Mixtral 8x22B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

8

132.61

H100 SXM

FP8

延迟

8

132.56

H100 SXM

INT8WO

吞吐量

8

134.82

H100 SXM

INT8WO

延迟

8

132.31

H100 SXM

FP16

吞吐量

8

265.59

A100 SXM

FP16

吞吐量

8

265.7

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Instruct#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP16

延迟

16

636.45

A100 SXM

FP16

延迟

16

636.45

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Instruct 128K#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

BF16

延迟

16

637.26

A100 SXM

BF16

延迟

16

637.22

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Reward#

优化的配置#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP16

延迟

16

636.45

A100 SXM

FP16

延迟

16

636.45

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Phi 3 Mini 4K Instruct#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

1

3.8

H100 SXM

FP16

吞吐量

1

7.14

A100 SXM

FP16

吞吐量

1

7.14

L40S

FP8

吞吐量

1

3.8

L40S

FP16

吞吐量

1

7.14

A10G

FP16

吞吐量

1

7.14

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

Phind Codellama 34B V2 Instruct#

配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。

GPU

精度

配置文件

GPU 数量

磁盘空间

H100 SXM

FP8

吞吐量

2

32.17

H100 SXM

FP8

延迟

4

32.41

H100 SXM

FP16

吞吐量

2

63.48

H100 SXM

FP16

延迟

4

64.59

A100 SXM

FP16

吞吐量

2

63.48

A100 SXM

FP16

延迟

4

64.59

L40S

FP8

吞吐量

4

32.43

L40S

FP16

吞吐量

4

64.58

A10G

FP16

延迟

8

66.8

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

StarCoderBase 15.5B#

通用配置#

任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

  • 精度: FP32

  • GPU 数量: 2, 4, 8