支持的模型#

GPU#

以下章节中列出的 GPU 具有以下规格。

GPU	系列	内存
H200	SXM/NVL (NVLink)	141 GB
H100	SXM/NVL (NVLink)	80 GB
A100	SXM/NVL (NVLink)	80 GB
L40S	PCIe	48 GB
A10G	PCIe	24 GB
4080		16 GB
4090		24 GB
5080		16 GB
5090		32 GB
6000		32 GB

优化的模型#

以下模型使用 TRT-LLM 进行了优化，并在 NGC 上作为预构建的优化引擎提供，应使用聊天完成端点。对于 vGPU 环境，以下章节中的 GPU 内存值指的是总 GPU 内存，包括为 vGPU 设置预留的 GPU 内存。

NVIDIA 还提供通用模型配置文件，这些配置文件可与任何具有足够内存容量的 NVIDIA GPU（或 GPU 集）一起运行。通用模型配置文件的标识特征是在配置文件名称中存在 local_build 或 vllm。在没有兼容的优化配置文件的系统上，将自动选择通用配置文件。在优化配置文件可用时，它们优先于通用配置文件，但您可以按照配置文件选择中的步骤，选择在任何系统上部署通用配置文件。

您还可以在模型中找到关于这些模型支持的功能（例如 LoRA）的更多信息。

Code Llama 13B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP16	吞吐量	2	24.63
H100 SXM	FP16	延迟	4	25.32
A100 SXM	FP16	吞吐量	2	24.63
A100 SXM	FP16	延迟	4	25.31
L40S	FP16	吞吐量	2	25.32
L40S	FP16	延迟	2	24.63
A10G	FP16	吞吐量	4	25.32
A10G	FP16	延迟	8	26.69

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Code Llama 34B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	32.17
H100 SXM	FP8	延迟	4	32.42
H100 SXM	FP16	吞吐量	2	63.48
H100 SXM	FP16	延迟	4	64.59
A100 SXM	FP16	吞吐量	2	63.48
A100 SXM	FP16	延迟	4	64.59
L40S	FP8	吞吐量	4	32.42
L40S	FP16	吞吐量	4	64.58
A10G	FP16	吞吐量	4	64.58
A10G	FP16	延迟	8	66.8

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Code Llama 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	4	65.47
H100 SXM	FP8	延迟	8	66.37
H100 SXM	FP16	吞吐量	4	130.35
H100 SXM	FP16	延迟	8	66.37
A100 SXM	FP16	吞吐量	4	130.35
A100 SXM	FP16	延迟	8	132.71
A10G	FP16	吞吐量	8	132.69

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Gemma 2 2B#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: BF16
GPU 数量: 1, 2

Gemma 2 9B#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: BF16
GPU 数量: 1, 2, 或 4

(Meta) Llama 2 7B Chat#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	1	6.57
H100 SXM	FP8	延迟	2	6.66
H100 SXM	FP16	吞吐量	1	12.62
H100 SXM	FP16	吞吐量 LoRA	1	12.63
H100 SXM	FP16	延迟	2	12.93
A100 SXM	FP16	吞吐量	1	15.54
A100 SXM	FP16	吞吐量 LoRA	1	12.63
A100 SXM	FP16	延迟	2	12.92
L40S	FP8	吞吐量	1	6.57
L40S	FP8	延迟	2	6.64
L40S	FP16	吞吐量	1	12.64
L40S	FP16	吞吐量 LoRA	1	12.65
L40S	FP16	延迟	2	12.95

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

(Meta) Llama 2 13B Chat#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	延迟	2	12.6
H100 SXM	FP16	吞吐量	1	24.33
H100 SXM	FP16	吞吐量 LoRA	1	24.35
H100 SXM	FP16	延迟	2	24.71
A100 SXM	FP16	吞吐量	1	24.34
A100 SXM	FP16	吞吐量 LoRA	1	24.37
A100 SXM	FP16	延迟	2	24.74
L40S	FP8	吞吐量	1	12.49
L40S	FP8	延迟	2	12.59
L40S	FP16	吞吐量	1	24.33
L40S	FP16	吞吐量 LoRA	1	24.37
L40S	FP16	延迟	2	24.7

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

(Meta) Llama 2 70B Chat#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	65.08
H100 SXM	FP8	延迟	4	65.36
H100 SXM	FP16	吞吐量	4	130.52
H100 SXM	FP16	吞吐量 LoRA	4	130.6
H100 SXM	FP16	延迟	8	133.18
A100 SXM	FP16	吞吐量	4	130.52
A100 SXM	FP16	吞吐量 LoRA	4	130.5
A100 SXM	FP16	延迟	8	133.12
L40S	FP8	吞吐量	4	63.35

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 SQLCoder 8B#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	1	8.52
H100 SXM	FP8	延迟	2	8.61
H100 SXM	FP16	吞吐量	1	15
H100 SXM	FP16	延迟	2	16.02
L40S	FP8	吞吐量	1	8.53
L40S	FP8	延迟	2	8.61
L40S	FP16	吞吐量	1	15
L40S	FP16	延迟	2	16.02
A10G	FP16	吞吐量	1	15
A10G	FP16	吞吐量	2	16.02
A10G	FP16	延迟	2	16.02
A10G	FP16	延迟	4	18.06

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 Swallow 70B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	68.42
H100 SXM	FP8	延迟	4	69.3
H100 SXM	FP16	吞吐量	2	137.7
H100 SXM	FP16	延迟	4	145.94
A100 SXM	FP16	吞吐量	2	137.7
A100 SXM	FP16	延迟	2	137.7
L40S	FP8	吞吐量	2	68.48
A10G	FP16	吞吐量	4	145.93

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3 Taiwan 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	68.42
H100 SXM	FP8	延迟	4	145.94
H100 SXM	FP16	吞吐量	2	137.7
H100 SXM	FP16	延迟	4	137.7
A100 SXM	FP16	吞吐量	2	137.7
A100 SXM	FP16	延迟	2	145.94
L40S	FP8	吞吐量	2	68.48
A10G	FP16	吞吐量	4	145.93

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 8B Base#

优化的配置#

配置文件 用于模型优化的目标。

GPU	精度	配置文件	GPU 数量
H100 SXM	BF16	延迟	2
H100 SXM	FP8	延迟	2
H100 SXM	BF16	吞吐量	1
H100 SXM	FP8	吞吐量	1
A100 SXM	BF16	延迟	2
A100 SXM	BF16	吞吐量	1
L40S	BF16	延迟	2
L40S	BF16	吞吐量	2
A10G	BF16	延迟	4
A10G	BF16	吞吐量	2

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	24	FP16	15

Llama 3.1 8B Instruct#

优化的配置#

配置文件 用于模型优化的目标。

GPU	配置文件	GPU 数量
H100 SXM	吞吐量	1
H100 SXM	延迟	2
H100 NVL	吞吐量	1
H100 NVL	延迟	2
A100 SXM	吞吐量	1
A100 SXM	延迟	2
L40S	吞吐量	2
L40S	延迟	4
A10G	吞吐量	2
A10G	延迟	4

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	24	FP16	15

Llama 3.1 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标。

GPU	精度	配置文件	GPU 数量	磁盘空间
H200 SXM	FP8	吞吐量	1	67.87
H200 SXM	FP8	延迟	2	68.2
H200 SXM	BF16	吞吐量	2	133.72
H200 SXM	BF16	延迟	4	137.99
H100 SXM	FP8	吞吐量	2	68.2
H100 SXM	FP8	吞吐量	4	68.72
H100 SXM	FP8	延迟	8	69.71
H100 SXM	BF16	吞吐量	4	138.39
H100 SXM	BF16	延迟	8	147.66
H100 NVL	FP8	吞吐量	2	68.2
H100 NVL	FP8	延迟	4	68.72
H100 NVL	BF16	吞吐量	2	133.95
H100 NVL	BF16	吞吐量	4	138.4
H100 NVL	BF16	延迟	8	147.37
A100 SXM	BF16	吞吐量	4	138.53
A100 SXM	BF16	延迟	8	147.44
L40S	BF16	吞吐量	4	138.49

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 405B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	延迟	8	388.75
H100 SXM	FP16	延迟	16	794.9
A100 SXM	PP16	延迟	16	798.2

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	240	FP16	100 SXM

Llama 3.1 Nemotron 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	68.18
H100 SXM	FP8	吞吐量	4	68.64
H100 SXM	FP8	延迟	8	69.77
H100 SXM	FP16	吞吐量	4	137.94
H100 SXM	FP16	延迟	8	146.41
A100 SXM	FP16	吞吐量	4	137.93
A100 SXM	FP16	延迟	8	146.41

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Llama 3.1 Swallow 8B Instruct v0.1#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: BF16
GPU 数量: 1, 2, 4

Llama 3.1 Swallow 70B Instruct v0.1#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: BF16
GPU 数量: 2, 4, 8

Llama 3.3 70B Instruct#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: BF16
GPU 数量: 4, 8

Meta Llama 3 8B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP16	吞吐量	1	28
H100 SXM	FP16	延迟	2	28
A100 SXM	FP16	吞吐量	1	28
A100 SXM	FP16	延迟	2	28
L40S	FP8	吞吐量	1	20.5
L40S	FP8	延迟	2	20.5
L40S	FP16	吞吐量	1	28
A10G	FP16	吞吐量	1	28
A10G	FP16	延迟	2	28

通用配置#

磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	24	FP16	16

Meta Llama 3 70B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	4	82
H100 SXM	FP8	延迟	8	82
H100 SXM	FP16	吞吐量	4	158
H100 SXM	FP16	延迟	8	158
A100 SXM	FP16	吞吐量	4	158

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	240	FP16	100 SXM

Mistral 7B Instruct V0.3#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	1	7.08
H100 SXM	FP8	延迟	2	7.19
H100 SXM	BF16	吞吐量	1	13.56
H100 SXM	BF16	延迟	2	7.19
A100 SXM	BF16	吞吐量	1	13.56
A100 SXM	BF16	延迟	2	13.87
L40S	FP8	吞吐量	1	7.08
L40S	FP8	延迟	2	7.16
L40S	BF16	吞吐量	1	13.55
L40S	BF16	延迟	2	13.85
A10G	BF16	吞吐量	2	13.87
A10G	BF16	延迟	4	14.48

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	24	FP16	16

Mistral NeMo 12B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	延迟	2	13.82
H100 SXM	FP16	吞吐量	1	23.35
H100 SXM	FP16	延迟	2	25.14
A100 SXM	FP16	吞吐量	1	23.35
A100 SXM	FP16	延迟	2	25.14
L40S	FP8	吞吐量	2	13.83
L40S	FP8	延迟	4	15.01
L40S	FP16	吞吐量	2	25.14
L40S	FP16	延迟	4	28.71
A10G	FP16	吞吐量	4	28.71
A10G	FP16	延迟	8	35.87

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Mistral NeMo Minitron 8B 8K Instruct#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	1	8.91
H100 SXM	FP8	延迟	2	9.03
H100 SXM	FP16	吞吐量	1	15.72
H100 SXM	FP16	延迟	2	16.78
A100 SXM	FP16	吞吐量	1	15.72
A100 SXM	FP16	延迟	2	16.78
L40S	FP8	吞吐量	1	8.92
L40S	FP8	延迟	2	9.02
L40S	FP16	吞吐量	1	15.72
L40S	FP16	延迟	2	16.77
A10G	FP16	吞吐量	2	16.81
A10G	FP16	延迟	4	15.72

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Mixtral 8x7B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	100
H100 SXM	FP8	延迟	4	100
H100 SXM	INT8WO	吞吐量	2	100
H100 SXM	INT8WO	延迟	4	100
H100 SXM	FP16	吞吐量	2	100
H100 SXM	FP16	延迟	4	100
A100 SXM	FP16	吞吐量	2	100
A100 SXM	FP16	延迟	4	100
L40S	FP8	吞吐量	4	100
L40S	FP16	吞吐量	4	100
A10G	FP16	吞吐量	8	100

通用配置#

GPU 内存 和 磁盘空间 值以 GB 为单位；磁盘空间 用于容器和模型。

GPU	GPU 内存	精度	磁盘空间
任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。	24	FP16	16

Mixtral 8x22B Instruct V0.1#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	8	132.61
H100 SXM	FP8	延迟	8	132.56
H100 SXM	INT8WO	吞吐量	8	134.82
H100 SXM	INT8WO	延迟	8	132.31
H100 SXM	FP16	吞吐量	8	265.59
A100 SXM	FP16	吞吐量	8	265.7

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Instruct#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP16	延迟	16	636.45
A100 SXM	FP16	延迟	16	636.45

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Instruct 128K#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	BF16	延迟	16	637.26
A100 SXM	BF16	延迟	16	637.22

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Nemotron 4 340B Reward#

优化的配置#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP16	延迟	16	636.45
A100 SXM	FP16	延迟	16	636.45

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Phi 3 Mini 4K Instruct#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	1	3.8
H100 SXM	FP16	吞吐量	1	7.14
A100 SXM	FP16	吞吐量	1	7.14
L40S	FP8	吞吐量	1	3.8
L40S	FP16	吞吐量	1	7.14
A10G	FP16	吞吐量	1	7.14

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

Phind Codellama 34B V2 Instruct#

配置文件 用于模型优化的目标；磁盘空间 用于容器和模型，值以 GB 为单位。

GPU	精度	配置文件	GPU 数量	磁盘空间
H100 SXM	FP8	吞吐量	2	32.17
H100 SXM	FP8	延迟	4	32.41
H100 SXM	FP16	吞吐量	2	63.48
H100 SXM	FP16	延迟	4	64.59
A100 SXM	FP16	吞吐量	2	63.48
A100 SXM	FP16	延迟	4	64.59
L40S	FP8	吞吐量	4	32.43
L40S	FP16	吞吐量	4	64.58
A10G	FP16	延迟	8	66.8

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

StarCoderBase 15.5B#

通用配置#

任何 NVIDIA GPU 应该能够（但不保证能够）在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型，这些 GPU 具有足够的聚合内存，计算能力 >= 7.0（bfloat16 为 8.0），并且至少有一个 GPU 具有 95% 或更高的可用内存。

支持的 TRT-LLM 可构建配置文件#

精度: FP32
GPU 数量: 2, 4, 8