支持的模型#
GPU#
以下章节中列出的 GPU 具有以下规格。
GPU |
系列 |
内存 |
---|---|---|
H200 |
SXM/NVL (NVLink) |
141 GB |
H100 |
SXM/NVL (NVLink) |
80 GB |
A100 |
SXM/NVL (NVLink) |
80 GB |
L40S |
PCIe |
48 GB |
A10G |
PCIe |
24 GB |
4080 |
16 GB |
|
4090 |
24 GB |
|
5080 |
16 GB |
|
5090 |
32 GB |
|
6000 |
32 GB |
优化的模型#
以下模型使用 TRT-LLM 进行了优化,并在 NGC 上作为预构建的优化引擎提供,应使用聊天完成端点。对于 vGPU 环境,以下章节中的 GPU 内存值指的是总 GPU 内存,包括为 vGPU 设置预留的 GPU 内存。
NVIDIA 还提供通用模型配置文件,这些配置文件可与任何具有足够内存容量的 NVIDIA GPU(或 GPU 集)一起运行。通用模型配置文件的标识特征是在配置文件名称中存在 local_build
或 vllm
。在没有兼容的优化配置文件的系统上,将自动选择通用配置文件。在优化配置文件可用时,它们优先于通用配置文件,但您可以按照配置文件选择中的步骤,选择在任何系统上部署通用配置文件。
您还可以在模型中找到关于这些模型支持的功能(例如 LoRA)的更多信息。
Code Llama 13B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP16 |
吞吐量 |
2 |
24.63 |
H100 SXM |
FP16 |
延迟 |
4 |
25.32 |
A100 SXM |
FP16 |
吞吐量 |
2 |
24.63 |
A100 SXM |
FP16 |
延迟 |
4 |
25.31 |
L40S |
FP16 |
吞吐量 |
2 |
25.32 |
L40S |
FP16 |
延迟 |
2 |
24.63 |
A10G |
FP16 |
吞吐量 |
4 |
25.32 |
A10G |
FP16 |
延迟 |
8 |
26.69 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Code Llama 34B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
32.17 |
H100 SXM |
FP8 |
延迟 |
4 |
32.42 |
H100 SXM |
FP16 |
吞吐量 |
2 |
63.48 |
H100 SXM |
FP16 |
延迟 |
4 |
64.59 |
A100 SXM |
FP16 |
吞吐量 |
2 |
63.48 |
A100 SXM |
FP16 |
延迟 |
4 |
64.59 |
L40S |
FP8 |
吞吐量 |
4 |
32.42 |
L40S |
FP16 |
吞吐量 |
4 |
64.58 |
A10G |
FP16 |
吞吐量 |
4 |
64.58 |
A10G |
FP16 |
延迟 |
8 |
66.8 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Code Llama 70B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
4 |
65.47 |
H100 SXM |
FP8 |
延迟 |
8 |
66.37 |
H100 SXM |
FP16 |
吞吐量 |
4 |
130.35 |
H100 SXM |
FP16 |
延迟 |
8 |
66.37 |
A100 SXM |
FP16 |
吞吐量 |
4 |
130.35 |
A100 SXM |
FP16 |
延迟 |
8 |
132.71 |
A10G |
FP16 |
吞吐量 |
8 |
132.69 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Gemma 2 2B#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: BF16
GPU 数量: 1, 2
Gemma 2 9B#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: BF16
GPU 数量: 1, 2, 或 4
(Meta) Llama 2 7B Chat#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
1 |
6.57 |
H100 SXM |
FP8 |
延迟 |
2 |
6.66 |
H100 SXM |
FP16 |
吞吐量 |
1 |
12.62 |
H100 SXM |
FP16 |
吞吐量 LoRA |
1 |
12.63 |
H100 SXM |
FP16 |
延迟 |
2 |
12.93 |
A100 SXM |
FP16 |
吞吐量 |
1 |
15.54 |
A100 SXM |
FP16 |
吞吐量 LoRA |
1 |
12.63 |
A100 SXM |
FP16 |
延迟 |
2 |
12.92 |
L40S |
FP8 |
吞吐量 |
1 |
6.57 |
L40S |
FP8 |
延迟 |
2 |
6.64 |
L40S |
FP16 |
吞吐量 |
1 |
12.64 |
L40S |
FP16 |
吞吐量 LoRA |
1 |
12.65 |
L40S |
FP16 |
延迟 |
2 |
12.95 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
(Meta) Llama 2 13B Chat#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
延迟 |
2 |
12.6 |
H100 SXM |
FP16 |
吞吐量 |
1 |
24.33 |
H100 SXM |
FP16 |
吞吐量 LoRA |
1 |
24.35 |
H100 SXM |
FP16 |
延迟 |
2 |
24.71 |
A100 SXM |
FP16 |
吞吐量 |
1 |
24.34 |
A100 SXM |
FP16 |
吞吐量 LoRA |
1 |
24.37 |
A100 SXM |
FP16 |
延迟 |
2 |
24.74 |
L40S |
FP8 |
吞吐量 |
1 |
12.49 |
L40S |
FP8 |
延迟 |
2 |
12.59 |
L40S |
FP16 |
吞吐量 |
1 |
24.33 |
L40S |
FP16 |
吞吐量 LoRA |
1 |
24.37 |
L40S |
FP16 |
延迟 |
2 |
24.7 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
(Meta) Llama 2 70B Chat#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
65.08 |
H100 SXM |
FP8 |
延迟 |
4 |
65.36 |
H100 SXM |
FP16 |
吞吐量 |
4 |
130.52 |
H100 SXM |
FP16 |
吞吐量 LoRA |
4 |
130.6 |
H100 SXM |
FP16 |
延迟 |
8 |
133.18 |
A100 SXM |
FP16 |
吞吐量 |
4 |
130.52 |
A100 SXM |
FP16 |
吞吐量 LoRA |
4 |
130.5 |
A100 SXM |
FP16 |
延迟 |
8 |
133.12 |
L40S |
FP8 |
吞吐量 |
4 |
63.35 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3 SQLCoder 8B#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
1 |
8.52 |
H100 SXM |
FP8 |
延迟 |
2 |
8.61 |
H100 SXM |
FP16 |
吞吐量 |
1 |
15 |
H100 SXM |
FP16 |
延迟 |
2 |
16.02 |
L40S |
FP8 |
吞吐量 |
1 |
8.53 |
L40S |
FP8 |
延迟 |
2 |
8.61 |
L40S |
FP16 |
吞吐量 |
1 |
15 |
L40S |
FP16 |
延迟 |
2 |
16.02 |
A10G |
FP16 |
吞吐量 |
1 |
15 |
A10G |
FP16 |
吞吐量 |
2 |
16.02 |
A10G |
FP16 |
延迟 |
2 |
16.02 |
A10G |
FP16 |
延迟 |
4 |
18.06 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3 Swallow 70B Instruct V0.1#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
68.42 |
H100 SXM |
FP8 |
延迟 |
4 |
69.3 |
H100 SXM |
FP16 |
吞吐量 |
2 |
137.7 |
H100 SXM |
FP16 |
延迟 |
4 |
145.94 |
A100 SXM |
FP16 |
吞吐量 |
2 |
137.7 |
A100 SXM |
FP16 |
延迟 |
2 |
137.7 |
L40S |
FP8 |
吞吐量 |
2 |
68.48 |
A10G |
FP16 |
吞吐量 |
4 |
145.93 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3 Taiwan 70B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
68.42 |
H100 SXM |
FP8 |
延迟 |
4 |
145.94 |
H100 SXM |
FP16 |
吞吐量 |
2 |
137.7 |
H100 SXM |
FP16 |
延迟 |
4 |
137.7 |
A100 SXM |
FP16 |
吞吐量 |
2 |
137.7 |
A100 SXM |
FP16 |
延迟 |
2 |
145.94 |
L40S |
FP8 |
吞吐量 |
2 |
68.48 |
A10G |
FP16 |
吞吐量 |
4 |
145.93 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3.1 8B Base#
优化的配置#
配置文件 用于模型优化的目标。
GPU |
精度 |
配置文件 |
GPU 数量 |
---|---|---|---|
H100 SXM |
BF16 |
延迟 |
2 |
H100 SXM |
FP8 |
延迟 |
2 |
H100 SXM |
BF16 |
吞吐量 |
1 |
H100 SXM |
FP8 |
吞吐量 |
1 |
A100 SXM |
BF16 |
延迟 |
2 |
A100 SXM |
BF16 |
吞吐量 |
1 |
L40S |
BF16 |
延迟 |
2 |
L40S |
BF16 |
吞吐量 |
2 |
A10G |
BF16 |
延迟 |
4 |
A10G |
BF16 |
吞吐量 |
2 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
24 |
FP16 |
15 |
Llama 3.1 8B Instruct#
优化的配置#
配置文件 用于模型优化的目标。
GPU |
配置文件 |
GPU 数量 |
---|---|---|
H100 SXM |
吞吐量 |
1 |
H100 SXM |
延迟 |
2 |
H100 NVL |
吞吐量 |
1 |
H100 NVL |
延迟 |
2 |
A100 SXM |
吞吐量 |
1 |
A100 SXM |
延迟 |
2 |
L40S |
吞吐量 |
2 |
L40S |
延迟 |
4 |
A10G |
吞吐量 |
2 |
A10G |
延迟 |
4 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
24 |
FP16 |
15 |
Llama 3.1 70B Instruct#
优化的配置#
配置文件 用于模型优化的目标。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H200 SXM |
FP8 |
吞吐量 |
1 |
67.87 |
H200 SXM |
FP8 |
延迟 |
2 |
68.2 |
H200 SXM |
BF16 |
吞吐量 |
2 |
133.72 |
H200 SXM |
BF16 |
延迟 |
4 |
137.99 |
H100 SXM |
FP8 |
吞吐量 |
2 |
68.2 |
H100 SXM |
FP8 |
吞吐量 |
4 |
68.72 |
H100 SXM |
FP8 |
延迟 |
8 |
69.71 |
H100 SXM |
BF16 |
吞吐量 |
4 |
138.39 |
H100 SXM |
BF16 |
延迟 |
8 |
147.66 |
H100 NVL |
FP8 |
吞吐量 |
2 |
68.2 |
H100 NVL |
FP8 |
延迟 |
4 |
68.72 |
H100 NVL |
BF16 |
吞吐量 |
2 |
133.95 |
H100 NVL |
BF16 |
吞吐量 |
4 |
138.4 |
H100 NVL |
BF16 |
延迟 |
8 |
147.37 |
A100 SXM |
BF16 |
吞吐量 |
4 |
138.53 |
A100 SXM |
BF16 |
延迟 |
8 |
147.44 |
L40S |
BF16 |
吞吐量 |
4 |
138.49 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3.1 405B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
延迟 |
8 |
388.75 |
H100 SXM |
FP16 |
延迟 |
16 |
794.9 |
A100 SXM |
PP16 |
延迟 |
16 |
798.2 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
240 |
FP16 |
100 SXM |
Llama 3.1 Nemotron 70B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
68.18 |
H100 SXM |
FP8 |
吞吐量 |
4 |
68.64 |
H100 SXM |
FP8 |
延迟 |
8 |
69.77 |
H100 SXM |
FP16 |
吞吐量 |
4 |
137.94 |
H100 SXM |
FP16 |
延迟 |
8 |
146.41 |
A100 SXM |
FP16 |
吞吐量 |
4 |
137.93 |
A100 SXM |
FP16 |
延迟 |
8 |
146.41 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Llama 3.1 Swallow 8B Instruct v0.1#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: BF16
GPU 数量: 1, 2, 4
Llama 3.1 Swallow 70B Instruct v0.1#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: BF16
GPU 数量: 2, 4, 8
Llama 3.3 70B Instruct#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: BF16
GPU 数量: 4, 8
Meta Llama 3 8B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP16 |
吞吐量 |
1 |
28 |
H100 SXM |
FP16 |
延迟 |
2 |
28 |
A100 SXM |
FP16 |
吞吐量 |
1 |
28 |
A100 SXM |
FP16 |
延迟 |
2 |
28 |
L40S |
FP8 |
吞吐量 |
1 |
20.5 |
L40S |
FP8 |
延迟 |
2 |
20.5 |
L40S |
FP16 |
吞吐量 |
1 |
28 |
A10G |
FP16 |
吞吐量 |
1 |
28 |
A10G |
FP16 |
延迟 |
2 |
28 |
通用配置#
磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
24 |
FP16 |
16 |
Meta Llama 3 70B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
4 |
82 |
H100 SXM |
FP8 |
延迟 |
8 |
82 |
H100 SXM |
FP16 |
吞吐量 |
4 |
158 |
H100 SXM |
FP16 |
延迟 |
8 |
158 |
A100 SXM |
FP16 |
吞吐量 |
4 |
158 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
240 |
FP16 |
100 SXM |
Mistral 7B Instruct V0.3#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
1 |
7.08 |
H100 SXM |
FP8 |
延迟 |
2 |
7.19 |
H100 SXM |
BF16 |
吞吐量 |
1 |
13.56 |
H100 SXM |
BF16 |
延迟 |
2 |
7.19 |
A100 SXM |
BF16 |
吞吐量 |
1 |
13.56 |
A100 SXM |
BF16 |
延迟 |
2 |
13.87 |
L40S |
FP8 |
吞吐量 |
1 |
7.08 |
L40S |
FP8 |
延迟 |
2 |
7.16 |
L40S |
BF16 |
吞吐量 |
1 |
13.55 |
L40S |
BF16 |
延迟 |
2 |
13.85 |
A10G |
BF16 |
吞吐量 |
2 |
13.87 |
A10G |
BF16 |
延迟 |
4 |
14.48 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
24 |
FP16 |
16 |
Mistral NeMo 12B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
延迟 |
2 |
13.82 |
H100 SXM |
FP16 |
吞吐量 |
1 |
23.35 |
H100 SXM |
FP16 |
延迟 |
2 |
25.14 |
A100 SXM |
FP16 |
吞吐量 |
1 |
23.35 |
A100 SXM |
FP16 |
延迟 |
2 |
25.14 |
L40S |
FP8 |
吞吐量 |
2 |
13.83 |
L40S |
FP8 |
延迟 |
4 |
15.01 |
L40S |
FP16 |
吞吐量 |
2 |
25.14 |
L40S |
FP16 |
延迟 |
4 |
28.71 |
A10G |
FP16 |
吞吐量 |
4 |
28.71 |
A10G |
FP16 |
延迟 |
8 |
35.87 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Mistral NeMo Minitron 8B 8K Instruct#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
1 |
8.91 |
H100 SXM |
FP8 |
延迟 |
2 |
9.03 |
H100 SXM |
FP16 |
吞吐量 |
1 |
15.72 |
H100 SXM |
FP16 |
延迟 |
2 |
16.78 |
A100 SXM |
FP16 |
吞吐量 |
1 |
15.72 |
A100 SXM |
FP16 |
延迟 |
2 |
16.78 |
L40S |
FP8 |
吞吐量 |
1 |
8.92 |
L40S |
FP8 |
延迟 |
2 |
9.02 |
L40S |
FP16 |
吞吐量 |
1 |
15.72 |
L40S |
FP16 |
延迟 |
2 |
16.77 |
A10G |
FP16 |
吞吐量 |
2 |
16.81 |
A10G |
FP16 |
延迟 |
4 |
15.72 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Mixtral 8x7B Instruct V0.1#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
100 |
H100 SXM |
FP8 |
延迟 |
4 |
100 |
H100 SXM |
INT8WO |
吞吐量 |
2 |
100 |
H100 SXM |
INT8WO |
延迟 |
4 |
100 |
H100 SXM |
FP16 |
吞吐量 |
2 |
100 |
H100 SXM |
FP16 |
延迟 |
4 |
100 |
A100 SXM |
FP16 |
吞吐量 |
2 |
100 |
A100 SXM |
FP16 |
延迟 |
4 |
100 |
L40S |
FP8 |
吞吐量 |
4 |
100 |
L40S |
FP16 |
吞吐量 |
4 |
100 |
A10G |
FP16 |
吞吐量 |
8 |
100 |
通用配置#
GPU 内存 和 磁盘空间 值以 GB 为单位;磁盘空间 用于容器和模型。
GPU |
GPU 内存 |
精度 |
磁盘空间 |
---|---|---|---|
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。 |
24 |
FP16 |
16 |
Mixtral 8x22B Instruct V0.1#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
8 |
132.61 |
H100 SXM |
FP8 |
延迟 |
8 |
132.56 |
H100 SXM |
INT8WO |
吞吐量 |
8 |
134.82 |
H100 SXM |
INT8WO |
延迟 |
8 |
132.31 |
H100 SXM |
FP16 |
吞吐量 |
8 |
265.59 |
A100 SXM |
FP16 |
吞吐量 |
8 |
265.7 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Nemotron 4 340B Instruct#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP16 |
延迟 |
16 |
636.45 |
A100 SXM |
FP16 |
延迟 |
16 |
636.45 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Nemotron 4 340B Instruct 128K#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
BF16 |
延迟 |
16 |
637.26 |
A100 SXM |
BF16 |
延迟 |
16 |
637.22 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Nemotron 4 340B Reward#
优化的配置#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP16 |
延迟 |
16 |
636.45 |
A100 SXM |
FP16 |
延迟 |
16 |
636.45 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Phi 3 Mini 4K Instruct#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
1 |
3.8 |
H100 SXM |
FP16 |
吞吐量 |
1 |
7.14 |
A100 SXM |
FP16 |
吞吐量 |
1 |
7.14 |
L40S |
FP8 |
吞吐量 |
1 |
3.8 |
L40S |
FP16 |
吞吐量 |
1 |
7.14 |
A10G |
FP16 |
吞吐量 |
1 |
7.14 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
Phind Codellama 34B V2 Instruct#
配置文件 用于模型优化的目标;磁盘空间 用于容器和模型,值以 GB 为单位。
GPU |
精度 |
配置文件 |
GPU 数量 |
磁盘空间 |
---|---|---|---|---|
H100 SXM |
FP8 |
吞吐量 |
2 |
32.17 |
H100 SXM |
FP8 |
延迟 |
4 |
32.41 |
H100 SXM |
FP16 |
吞吐量 |
2 |
63.48 |
H100 SXM |
FP16 |
延迟 |
4 |
64.59 |
A100 SXM |
FP16 |
吞吐量 |
2 |
63.48 |
A100 SXM |
FP16 |
延迟 |
4 |
64.59 |
L40S |
FP8 |
吞吐量 |
4 |
32.43 |
L40S |
FP16 |
吞吐量 |
4 |
64.58 |
A10G |
FP16 |
延迟 |
8 |
66.8 |
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
StarCoderBase 15.5B#
通用配置#
任何 NVIDIA GPU 应该能够(但不保证能够)在具有足够 GPU 内存或多个同构 NVIDIA GPU 的情况下运行此模型,这些 GPU 具有足够的聚合内存,计算能力 >= 7.0(bfloat16 为 8.0),并且至少有一个 GPU 具有 95% 或更高的可用内存。
支持的 TRT-LLM 可构建配置文件#
精度: FP32
GPU 数量: 2, 4, 8