关于 NVIDIA GPU Operator#

_images/nvidia-gpu-operator-image.jpg

Kubernetes 通过设备插件框架提供对特殊硬件资源(如 NVIDIA GPU、网卡、Infiniband 适配器和其他设备)的访问。然而,配置和管理具有这些硬件资源的节点需要配置多个软件组件,例如驱动程序、容器运行时或其他库,这些组件既困难又容易出错。NVIDIA GPU Operator 使用 Kubernetes 中的 Operator 框架来自动化管理配置 GPU 所需的所有 NVIDIA 软件组件。这些组件包括 NVIDIA 驱动程序(以启用 CUDA)、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container Toolkit、使用 GFD 的自动节点标记、基于 DCGM 的监控等等。

Red Hat OpenShift 容器平台

有关安装、管理和升级 Operator 的信息,请参阅 Red Hat OpenShift 容器平台上的 NVIDIA GPU Operator

有关支持版本的信息,请参见支持的操作系统和 Kubernetes 平台

关于本文档#

浏览以下文档以了解入门、平台支持和发行说明。

入门#

安装 NVIDIA GPU Operator 指南包含有关在 Kubernetes 集群中安装 GPU Operator 的信息。

发行说明#

有关发行版本的信息,请参阅 发行说明

平台支持#

平台支持 描述了支持的平台配置。

Operator 和操作数的 Pod 安全上下文#

NVIDIA GPU Operator 的几个操作数(例如驱动程序容器和容器工具包)需要以下提升的权限

  • privileged: true

  • hostPID: true

  • hostIPC: true

需要提升权限的原因如下

  • 访问主机文件系统和硬件设备,例如 NVIDIA GPU。

  • 重启系统服务,例如 containerd。

  • 允许用户使用 nvidia-smi 实用程序列出所有 GPU 客户端。

只有 Kubernetes 集群管理员需要访问或管理 Operator 命名空间。作为最佳实践,请建立适当的安全策略,并防止任何其他用户访问 Operator 命名空间。

许可证和贡献#

NVIDIA GPU Operator 源代码在 Apache 2.0 许可下获得许可,并接受带有 DCO 的贡献。有关如何贡献和发行工件的更多信息,请参阅贡献文档。

该软件使用的基础镜像可能包含根据开源许可证(如 GPL)获得许可的软件。这些组件的源代码已存档在 CUDA 开源 索引中。

下表标识了 Operator 和软件组件的许可证。通过安装和使用 GPU Operator,您接受这些许可证的条款和条件。

组件

工件类型

工件许可证

NVIDIA GPU Operator

Helm Chart

Apache 2.0

NVIDIA GPU Operator

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA GPU Feature Discovery

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA GPU 驱动程序

镜像

NVIDIA 软件客户使用许可

NVIDIA AI 产品的产品特定条款

NVIDIA Container Toolkit

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA Kubernetes 设备插件

镜像

NVIDIA AI 产品的产品特定条款

用于 Kubernetes 的 NVIDIA MIG 管理器

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA GPU Operator 的验证器

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA DCGM

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA DCGM Exporter

镜像

NVIDIA AI 产品的产品特定条款

用于 Kubernetes 的 NVIDIA 驱动程序管理器

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA KubeVirt GPU 设备插件

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA vGPU 设备管理器

镜像

NVIDIA AI 产品的产品特定条款

NVIDIA GDS 驱动程序

镜像

NVIDIA 软件客户使用许可

NVIDIA AI 产品的产品特定条款

用于 Kubernetes 的 NVIDIA 保密计算管理器

镜像

NVIDIA AI 产品的产品特定条款

用于 Kubernetes 的 NVIDIA Kata 管理器

镜像

NVIDIA AI 产品的产品特定条款