平台支持#
NVIDIA GPU Operator 版本控制#
NVIDIA GPU Operator 的版本控制遵循日历版本控制约定。
版本遵循 YY.MM.PP
模式,例如 23.6.0、23.6.1 和 23.9.0。前两个字段 YY.MM
标识主要版本,并指示主要版本最初发布的时间。第三个字段 PP
标识主要版本的补丁版本。补丁版本通常包括关键错误和 CVE 修复,但也可能包括次要功能。
NVIDIA GPU Operator 生命周期#
当 NVIDIA GPU Operator 的主要版本发布时,之前的版本进入维护支持阶段,仅接收关键错误和 CVE 修复的补丁版本更新。所有更早的主要版本都进入生命周期结束 (EOL),不再受支持,也不会接收补丁版本更新。
产品生命周期和版本控制将来可能会发生变化。
注意
仅支持在主要版本内升级或升级到下一个主要版本。
GPU Operator 版本 |
状态 |
---|---|
24.9.x |
正式发布 |
24.6.x |
维护 |
24.3.x 及更低版本 |
EOL(生命周期结束) |
GPU Operator 组件矩阵#
下表显示了与 GPU Operator 版本对应的操作数和默认操作数版本。
当发布后测试确认支持较新版本的操作数时,这些更新将被标识为 GPU Operator 版本的推荐更新。有关更多信息,请参阅 升级 NVIDIA GPU Operator。
组件 |
版本 |
---|---|
NVIDIA GPU Operator |
v24.9.2 |
NVIDIA GPU 驱动程序 |
|
Kubernetes 的 NVIDIA 驱动程序管理器 |
|
NVIDIA Container Toolkit |
|
NVIDIA Kubernetes 设备插件 |
|
DCGM Exporter |
|
节点特性发现 |
v0.16.6 |
Kubernetes 的 NVIDIA GPU 特性发现
为 Kubernetes
|
|
Kubernetes 的 NVIDIA MIG 管理器 |
|
DCGM |
|
NVIDIA GPU Operator 的验证器 |
v24.9.2 |
NVIDIA KubeVirt GPU 设备插件 |
|
NVIDIA vGPU 设备管理器 |
|
NVIDIA GDS 驱动程序 1 |
|
Kubernetes 的 NVIDIA Kata 管理器 |
|
Kubernetes 的 NVIDIA 保密计算管理器
管理器为 Kubernetes
|
v0.1.1 |
NVIDIA GDRCopy 驱动程序 |
1 此版本的 GDS 驱动程序要求您为 GPU 使用 NVIDIA Open GPU Kernel 模块驱动程序。有关更多信息,请参阅 GPUDirect RDMA 和 GPUDirect Storage。
注意
驱动程序版本可能因 NVIDIA vGPU 而异,因为它取决于从 NVIDIA vGPU 软件门户 下载的驱动程序版本。
GPU Operator 在所有活动的 NVIDIA 数据中心生产驱动程序上均受支持。有关更多信息,请参阅 支持的驱动程序和 CUDA 工具包版本。
支持的 NVIDIA 数据中心 GPU 和系统#
以下 NVIDIA 数据中心 GPU 在基于 x86 的平台上受支持
产品 |
架构 |
---|---|
NVIDIA GH200 1 |
NVIDIA Grace Hopper |
1 NVIDIA GH200 系统需要 NVIDIA Open GPU Kernel 模块驱动程序。您可以通过为 helm
命令指定 driver.useOpenKernelModules=true
参数来安装开放内核模块。有关更多信息,请参阅 常用 Chart 自定义选项。
产品 |
架构 |
---|---|
NVIDIA H800 |
NVIDIA Hopper |
NVIDIA H200,
NVIDIA H200 NVL
|
NVIDIA Hopper |
NVIDIA HGX H200 |
NVIDIA Hopper 和 NVSwitch |
NVIDIA DGX H100 |
NVIDIA Hopper 和 NVSwitch |
NVIDIA HGX H100 |
NVIDIA Hopper 和 NVSwitch |
NVIDIA H100,
NVIDIA H100 NVL
|
NVIDIA Hopper |
NVIDIA H20 |
NVIDIA Hopper |
NVIDIA L40,
NVIDIA L40S
|
NVIDIA Ada |
NVIDIA L4 |
NVIDIA Ada |
NVIDIA DGX A100 |
A100 和 NVSwitch |
NVIDIA HGX A100 |
A100 和 NVSwitch |
NVIDIA A800 |
NVIDIA Ampere |
NVIDIA A100 |
NVIDIA Ampere |
NVIDIA A100X |
NVIDIA Ampere |
NVIDIA A40 |
NVIDIA Ampere |
NVIDIA A30 |
NVIDIA Ampere |
NVIDIA A30X |
NVIDIA Ampere |
NVIDIA A16 |
NVIDIA Ampere |
NVIDIA A10 |
NVIDIA Ampere |
NVIDIA A2 |
NVIDIA Ampere |
注意
Hopper (H100) GPU 仅在 x86 服务器上受支持。
GPU Operator 支持使用 DGX OS 5.1+ 和 Red Hat Core OS 的 DGX A100。有关安装说明,请参阅 DGX OS 5.1+ 的预装 NVIDIA GPU 驱动程序和 NVIDIA Container Toolkit 以及 OpenShift 上 NVIDIA GPU Operator 简介,了解 Red Hat OpenShift。
产品 |
架构 |
---|---|
NVIDIA T4 |
Turing |
NVIDIA V100 |
Volta |
NVIDIA P100 |
Pascal |
NVIDIA P40 |
Pascal |
NVIDIA P4 |
Pascal |
产品 |
架构 |
---|---|
NVIDIA RTX A6000 |
NVIDIA Ampere /Ada |
NVIDIA RTX A5000 |
NVIDIA Ampere |
NVIDIA RTX A4500 |
NVIDIA Ampere |
NVIDIA RTX A4000 |
NVIDIA Ampere |
NVIDIA Quadro RTX 8000 |
Turing |
NVIDIA Quadro RTX 6000 |
Turing |
NVIDIA Quadro RTX 5000 |
Turing |
NVIDIA Quadro RTX 4000 |
Turing |
NVIDIA T1000 |
Turing |
NVIDIA T600 |
Turing |
NVIDIA T400 |
Turing |
支持的基于 ARM 的平台#
支持以下 NVIDIA 数据中心 GPU
产品 |
架构 |
---|---|
NVIDIA A100X |
Ampere |
NVIDIA A30X |
Ampere |
NVIDIA IGX Orin |
Ampere |
AWS EC2 G5g 实例 |
Turing |
除了上表指定的产品外,还支持满足以下任何要求的基于 ARM 的系统
连接到 PCI 总线的 NVIDIA GPU。
受支持的操作系统,例如 Ubuntu 或 Red Hat Enterprise Linux。
注意
GPU Operator 仅支持使用独立 GPU 的平台。不支持 NVIDIA Jetson 或其他带有集成 GPU 的嵌入式产品。
NVIDIA IGX Orin 是一个带有集成 GPU 的平台,只要使用的设备是独立 GPU,就支持该平台。
支持的部署选项#
GPU Operator 已在以下场景中得到验证
部署选项 |
---|
裸金属 |
具有 GPU 直通的虚拟机 |
具有基于 NVIDIA vGPU 产品的虚拟机 |
注意
GPU Operator 支持 NVIDIA vGPU 12.0+。
支持的操作系统和 Kubernetes 平台#
GPU Operator 已在以下场景中得到验证
注意
Kubernetes 社区自 v1.17 起仅支持最近的三个次要版本。较旧的版本可以通过 Kubernetes 的企业发行版(例如 Red Hat OpenShift)获得支持。
操作系统
系统
|
Kubernetes |
Red Hat
OpenShift
|
VMware vSphere
与 Tanzu
|
Rancher Kubernetes
Engine 2
|
HPE Ezmeral
Runtime
Enterprise
|
Canonical
MicroK8s
|
Nutanix
NKP
|
---|---|---|---|---|---|---|---|
Ubuntu 20.04 LTS 1 |
1.24—1.31 |
7.0 U3c, 8.0 U2, 8.0 U3 |
1.24—1.31 |
2.12, 2.13 |
|||
Ubuntu 22.04 LTS 1 |
1.24—1.31 |
8.0 U2, 8.0 U3 |
1.24—1.31 |
1.26 |
2.12, 2.13 |
||
Red Hat Core OS |
4.12—4.17
|
||||||
Red Hat
Enterprise
Linux 8.8,
8.10
|
1.24—1.31 |
1.24—1.31 |
|||||
Red Hat
Enterprise
Linux 8.4, 8.5
|
5.5 |
1 对于 Ubuntu 22.04 LTS,内核版本 6.5 和 5.15 是 LTS ESM 内核。对于 Ubuntu 20.04 LTS,内核版本 5.4 和 5.15 是 LTS ESM 内核。GPU 驱动程序容器支持这些 Linux 内核。有关更多信息,请参阅 Canonical 的 Ubuntu 内核生命周期和启用堆栈 页面上的内核发布计划。NVIDIA 建议禁用由 unattended-upgrades
软件包执行的 Linux 内核自动更新,以防止升级到不受支持的内核版本。
注意
Red Hat OpenShift Container Platform 在 AWS、Azure、GCP 和 OCI (Oracle) 虚拟机或裸金属实例上受支持,支持 T4、V100、L4、L40s、A10、A100、H100 和 H200。
操作系统
系统
|
Amazon EKS
Kubernetes
|
Google GKE
Kubernetes
|
Microsoft Azure
Kubernetes 服务
|
---|---|---|---|
Ubuntu 20.04 LTS |
1.25—1.28 |
1.25—1.28 |
1.25—1.28 |
Ubuntu 22.04 LTS |
1.25—1.28 |
1.25—1.28 |
1.25—1.28 |
操作系统
系统
|
Kubernetes |
Red Hat
OpenShift
|
VMware vSphere
与 Tanzu
|
Rancher Kubernetes
Engine 2
|
Nutanix
NKP
|
---|---|---|---|---|---|
Ubuntu 20.04 LTS |
1.24–1.31 |
7.0 U3c, 8.0 U2, 8.0 U3 |
1.23—1.25 |
2.12, 2.13 |
|
Ubuntu 22.04 LTS |
1.24–1.31 |
8.0 U2, 8.0 U3 |
2.12, 2.13 |
||
Red Hat Core OS |
4.12—4.17 |
||||
Red Hat
Enterprise
Linux 8.4,
8.6—8.9
|
1.24—1.31 |
1.24—1.31 |
支持的容器运行时#
GPU Operator 已在以下场景中得到验证
操作系统 |
Containerd 1.4 - 1.7 |
CRI-O |
---|---|---|
Ubuntu 20.04 LTS |
是 |
是 |
Ubuntu 22.04 LTS |
是 |
是 |
CentOS 7 |
是 |
否 |
Red Hat Core OS (RHCOS) |
否 |
是 |
Red Hat Enterprise Linux 8 |
是 |
是 |
注意
GPU Operator 已通过 containerd 配置文件版本 2 的验证。
对 KubeVirt 和 OpenShift Virtualization 的支持#
Red Hat OpenShift Virtualization 基于 KubeVirt。
操作系统 |
Kubernetes |
KubeVirt |
OpenShift Virtualization |
||
---|---|---|---|---|---|
GPU
直通
|
vGPU |
GPU
直通
|
vGPU |
||
Ubuntu 20.04 LTS |
1.23—1.29 |
0.36+ |
0.59.1+ |
||
Ubuntu 22.04 LTS |
1.23—1.29 |
0.36+ |
0.59.1+ |
||
Red Hat Core OS |
4.12—4.17 |
4.13—4.17 |
您可以在同一集群中运行 GPU 直通和 NVIDIA vGPU,只要您使用的软件版本满足这两个要求即可。
NVIDIA vGPU 与 KubeVirt v0.58.0、v0.58.1 和 v0.59.0 以及 OpenShift Virtualization 4.12.0—4.12.2 不兼容。从 KubeVirt v0.58.2 和 v0.59.1 以及 OpenShift Virtualization 4.12.3 和 4.13 开始,您必须设置 DisableMDEVConfiguration
功能门。请参阅 带有 KubeVirt 的 GPU Operator 或 带有 OpenShift Virtualization 的 NVIDIA GPU Operator。
在以下设备上支持带有 NVIDIA vGPU 的 KubeVirt 和 OpenShift Virtualization
H100
GA10x: A100, A40, RTX A6000, RTX A5500, RTX A5000, A30, A16, A10, A2。
A10G 和 A10M GPU 除外。
AD10x: L40, RTX 6000 Ada, L4。
L40G GPU 除外。
对 GPUDirect RDMA 的支持#
支持 GPUDirect RDMA 的操作系统和 NVIDIA GPU 驱动程序。
带有 Network Operator 24.10.0 的 Ubuntu 20.04 和 22.04 LTS
带有 Network Operator 23.10.0 的 Red Hat OpenShift 4.12 及更高版本
有关配置 GPUDirect RDMA 的信息,请参阅 GPUDirect RDMA 和 GPUDirect Storage。
对 GPUDirect Storage 的支持#
支持 GPUDirect Storage 的操作系统和 NVIDIA GPU 驱动程序。
带有 Network Operator 24.10.0 的 Ubuntu 20.04 和 22.04 LTS
Red Hat OpenShift Container Platform 4.12 及更高版本
注意
NVIDIA GPUDirect Storage 内核驱动程序 nvidia-fs
的 v2.17.5 及更高版本需要 NVIDIA Open GPU Kernel 模块驱动程序。您可以通过为 helm
命令指定 driver.useOpenKernelModules=true
参数来安装开放内核模块。有关更多信息,请参阅 常用 Chart 自定义选项。
不支持安全启动。支持的存储类型为本地 NVMe 和远程 NFS。
其他支持的容器管理工具#
Helm v3
Red Hat Operator Lifecycle Manager (OLM)