平台支持#

NVIDIA GPU Operator 版本控制#

NVIDIA GPU Operator 的版本控制遵循日历版本控制约定。

版本遵循 YY.MM.PP 模式,例如 23.6.0、23.6.1 和 23.9.0。前两个字段 YY.MM 标识主要版本,并指示主要版本最初发布的时间。第三个字段 PP 标识主要版本的补丁版本。补丁版本通常包括关键错误和 CVE 修复,但也可能包括次要功能。

NVIDIA GPU Operator 生命周期#

当 NVIDIA GPU Operator 的主要版本发布时,之前的版本进入维护支持阶段,仅接收关键错误和 CVE 修复的补丁版本更新。所有更早的主要版本都进入生命周期结束 (EOL),不再受支持,也不会接收补丁版本更新。

产品生命周期和版本控制将来可能会发生变化。

注意

  • 仅支持在主要版本内升级或升级到下一个主要版本。

版本发布的支持状态#

GPU Operator 版本

状态

24.9.x

正式发布

24.6.x

维护

24.3.x 及更低版本

EOL(生命周期结束)

GPU Operator 组件矩阵#

下表显示了与 GPU Operator 版本对应的操作数和默认操作数版本。

当发布后测试确认支持较新版本的操作数时,这些更新将被标识为 GPU Operator 版本的推荐更新。有关更多信息,请参阅 升级 NVIDIA GPU Operator

组件

版本

NVIDIA GPU Operator

v24.9.2

NVIDIA GPU 驱动程序

Kubernetes 的 NVIDIA 驱动程序管理器

v0.7.0

NVIDIA Container Toolkit

1.17.4

NVIDIA Kubernetes 设备插件

0.17.0

DCGM Exporter

3.3.9-3.6.1

节点特性发现

v0.16.6

Kubernetes 的 NVIDIA GPU 特性发现
为 Kubernetes

0.17.0

Kubernetes 的 NVIDIA MIG 管理器

0.10.0

DCGM

3.3.9-1

NVIDIA GPU Operator 的验证器

v24.9.2

NVIDIA KubeVirt GPU 设备插件

v1.2.10

NVIDIA vGPU 设备管理器

v0.2.8

NVIDIA GDS 驱动程序 1

2.20.5

Kubernetes 的 NVIDIA Kata 管理器

v0.2.2

Kubernetes 的 NVIDIA 保密计算管理器
管理器为 Kubernetes

v0.1.1

NVIDIA GDRCopy 驱动程序

v2.4.1-1

1 此版本的 GDS 驱动程序要求您为 GPU 使用 NVIDIA Open GPU Kernel 模块驱动程序。有关更多信息,请参阅 GPUDirect RDMA 和 GPUDirect Storage

注意

支持的 NVIDIA 数据中心 GPU 和系统#

以下 NVIDIA 数据中心 GPU 在基于 x86 的平台上受支持

产品

架构

NVIDIA GH200 1

NVIDIA Grace Hopper

1 NVIDIA GH200 系统需要 NVIDIA Open GPU Kernel 模块驱动程序。您可以通过为 helm 命令指定 driver.useOpenKernelModules=true 参数来安装开放内核模块。有关更多信息,请参阅 常用 Chart 自定义选项

产品

架构

NVIDIA H800

NVIDIA Hopper

NVIDIA H200,
NVIDIA H200 NVL

NVIDIA Hopper

NVIDIA HGX H200

NVIDIA Hopper 和 NVSwitch

NVIDIA DGX H100

NVIDIA Hopper 和 NVSwitch

NVIDIA HGX H100

NVIDIA Hopper 和 NVSwitch

NVIDIA H100,
NVIDIA H100 NVL

NVIDIA Hopper

NVIDIA H20

NVIDIA Hopper

NVIDIA L40,
NVIDIA L40S

NVIDIA Ada

NVIDIA L4

NVIDIA Ada

NVIDIA DGX A100

A100 和 NVSwitch

NVIDIA HGX A100

A100 和 NVSwitch

NVIDIA A800

NVIDIA Ampere

NVIDIA A100

NVIDIA Ampere

NVIDIA A100X

NVIDIA Ampere

NVIDIA A40

NVIDIA Ampere

NVIDIA A30

NVIDIA Ampere

NVIDIA A30X

NVIDIA Ampere

NVIDIA A16

NVIDIA Ampere

NVIDIA A10

NVIDIA Ampere

NVIDIA A2

NVIDIA Ampere

注意

产品

架构

NVIDIA T4

Turing

NVIDIA V100

Volta

NVIDIA P100

Pascal

NVIDIA P40

Pascal

NVIDIA P4

Pascal

产品

架构

NVIDIA RTX A6000

NVIDIA Ampere /Ada

NVIDIA RTX A5000

NVIDIA Ampere

NVIDIA RTX A4500

NVIDIA Ampere

NVIDIA RTX A4000

NVIDIA Ampere

NVIDIA Quadro RTX 8000

Turing

NVIDIA Quadro RTX 6000

Turing

NVIDIA Quadro RTX 5000

Turing

NVIDIA Quadro RTX 4000

Turing

NVIDIA T1000

Turing

NVIDIA T600

Turing

NVIDIA T400

Turing

支持的基于 ARM 的平台#

支持以下 NVIDIA 数据中心 GPU

产品

架构

NVIDIA A100X

Ampere

NVIDIA A30X

Ampere

NVIDIA IGX Orin

Ampere

AWS EC2 G5g 实例

Turing

除了上表指定的产品外,还支持满足以下任何要求的基于 ARM 的系统

注意

GPU Operator 仅支持使用独立 GPU 的平台。不支持 NVIDIA Jetson 或其他带有集成 GPU 的嵌入式产品。

NVIDIA IGX Orin 是一个带有集成 GPU 的平台,只要使用的设备是独立 GPU,就支持该平台。

支持的部署选项#

GPU Operator 已在以下场景中得到验证

部署选项

裸金属

具有 GPU 直通的虚拟机

具有基于 NVIDIA vGPU 产品的虚拟机

注意

GPU Operator 支持 NVIDIA vGPU 12.0+。

支持的操作系统和 Kubernetes 平台#

GPU Operator 已在以下场景中得到验证

注意

Kubernetes 社区自 v1.17 起仅支持最近的三个次要版本。较旧的版本可以通过 Kubernetes 的企业发行版(例如 Red Hat OpenShift)获得支持。

操作系统
系统

Kubernetes

Red Hat
OpenShift
VMware vSphere
与 Tanzu
Rancher Kubernetes
Engine 2
HPE Ezmeral
Runtime
Enterprise
Canonical
MicroK8s
Nutanix
NKP

Ubuntu 20.04 LTS 1

1.24—1.31

7.0 U3c, 8.0 U2, 8.0 U3

1.24—1.31

2.12, 2.13

Ubuntu 22.04 LTS 1

1.24—1.31

8.0 U2, 8.0 U3

1.24—1.31

1.26

2.12, 2.13

Red Hat Core OS

4.12—4.17
Red Hat
Enterprise
Linux 8.8,
8.10

1.24—1.31

1.24—1.31

Red Hat
Enterprise
Linux 8.4, 8.5

5.5

1 对于 Ubuntu 22.04 LTS,内核版本 6.5 和 5.15 是 LTS ESM 内核。对于 Ubuntu 20.04 LTS,内核版本 5.4 和 5.15 是 LTS ESM 内核。GPU 驱动程序容器支持这些 Linux 内核。有关更多信息,请参阅 Canonical 的 Ubuntu 内核生命周期和启用堆栈 页面上的内核发布计划。NVIDIA 建议禁用由 unattended-upgrades 软件包执行的 Linux 内核自动更新,以防止升级到不受支持的内核版本。

注意

Red Hat OpenShift Container Platform 在 AWS、Azure、GCP 和 OCI (Oracle) 虚拟机或裸金属实例上受支持,支持 T4、V100、L4、L40s、A10、A100、H100 和 H200。

操作系统
系统
Amazon EKS
Kubernetes
Google GKE
Kubernetes
Microsoft Azure
Kubernetes 服务

Ubuntu 20.04 LTS

1.25—1.28

1.25—1.28

1.25—1.28

Ubuntu 22.04 LTS

1.25—1.28

1.25—1.28

1.25—1.28

操作系统
系统

Kubernetes

Red Hat
OpenShift
VMware vSphere
与 Tanzu
Rancher Kubernetes
Engine 2
Nutanix
NKP

Ubuntu 20.04 LTS

1.24–1.31

7.0 U3c, 8.0 U2, 8.0 U3

1.23—1.25

2.12, 2.13

Ubuntu 22.04 LTS

1.24–1.31

8.0 U2, 8.0 U3

2.12, 2.13

Red Hat Core OS

4.12—4.17

Red Hat
Enterprise
Linux 8.4,
8.6—8.9

1.24—1.31

1.24—1.31

支持的容器运行时#

GPU Operator 已在以下场景中得到验证

操作系统

Containerd 1.4 - 1.7

CRI-O

Ubuntu 20.04 LTS

Ubuntu 22.04 LTS

CentOS 7

Red Hat Core OS (RHCOS)

Red Hat Enterprise Linux 8

注意

GPU Operator 已通过 containerd 配置文件版本 2 的验证。

对 KubeVirt 和 OpenShift Virtualization 的支持#

Red Hat OpenShift Virtualization 基于 KubeVirt。

操作系统

Kubernetes

KubeVirt

OpenShift Virtualization

GPU
直通

vGPU

GPU
直通

vGPU

Ubuntu 20.04 LTS

1.23—1.29

0.36+

0.59.1+

Ubuntu 22.04 LTS

1.23—1.29

0.36+

0.59.1+

Red Hat Core OS

4.12—4.17

4.13—4.17

您可以在同一集群中运行 GPU 直通和 NVIDIA vGPU,只要您使用的软件版本满足这两个要求即可。

NVIDIA vGPU 与 KubeVirt v0.58.0、v0.58.1 和 v0.59.0 以及 OpenShift Virtualization 4.12.0—4.12.2 不兼容。从 KubeVirt v0.58.2 和 v0.59.1 以及 OpenShift Virtualization 4.12.3 和 4.13 开始,您必须设置 DisableMDEVConfiguration 功能门。请参阅 带有 KubeVirt 的 GPU Operator带有 OpenShift Virtualization 的 NVIDIA GPU Operator

在以下设备上支持带有 NVIDIA vGPU 的 KubeVirt 和 OpenShift Virtualization

  • H100

  • GA10x: A100, A40, RTX A6000, RTX A5500, RTX A5000, A30, A16, A10, A2。

    A10G 和 A10M GPU 除外。

  • AD10x: L40, RTX 6000 Ada, L4。

    L40G GPU 除外。

对 GPUDirect RDMA 的支持#

支持 GPUDirect RDMA 的操作系统和 NVIDIA GPU 驱动程序。

  • 带有 Network Operator 24.10.0 的 Ubuntu 20.04 和 22.04 LTS

  • 带有 Network Operator 23.10.0 的 Red Hat OpenShift 4.12 及更高版本

有关配置 GPUDirect RDMA 的信息,请参阅 GPUDirect RDMA 和 GPUDirect Storage

对 GPUDirect Storage 的支持#

支持 GPUDirect Storage 的操作系统和 NVIDIA GPU 驱动程序。

  • 带有 Network Operator 24.10.0 的 Ubuntu 20.04 和 22.04 LTS

  • Red Hat OpenShift Container Platform 4.12 及更高版本

注意

NVIDIA GPUDirect Storage 内核驱动程序 nvidia-fs 的 v2.17.5 及更高版本需要 NVIDIA Open GPU Kernel 模块驱动程序。您可以通过为 helm 命令指定 driver.useOpenKernelModules=true 参数来安装开放内核模块。有关更多信息,请参阅 常用 Chart 自定义选项

不支持安全启动。支持的存储类型为本地 NVMe 和远程 NFS。

其他支持的容器管理工具#

  • Helm v3

  • Red Hat Operator Lifecycle Manager (OLM)