关于 NVIDIA GPU Operator#

Kubernetes 通过设备插件框架提供对特殊硬件资源(如 NVIDIA GPU、网卡、Infiniband 适配器和其他设备)的访问。然而,配置和管理具有这些硬件资源的节点需要配置多个软件组件,例如驱动程序、容器运行时或其他库,这些组件既困难又容易出错。NVIDIA GPU Operator 使用 Kubernetes 中的 Operator 框架来自动化管理配置 GPU 所需的所有 NVIDIA 软件组件。这些组件包括 NVIDIA 驱动程序(以启用 CUDA)、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container Toolkit、使用 GFD 的自动节点标记、基于 DCGM 的监控等等。
有关安装、管理和升级 Operator 的信息,请参阅 Red Hat OpenShift 容器平台上的 NVIDIA GPU Operator。
有关支持版本的信息,请参见支持的操作系统和 Kubernetes 平台。
关于本文档#
浏览以下文档以了解入门、平台支持和发行说明。
入门#
安装 NVIDIA GPU Operator 指南包含有关在 Kubernetes 集群中安装 GPU Operator 的信息。
发行说明#
有关发行版本的信息,请参阅 发行说明。
平台支持#
平台支持 描述了支持的平台配置。
Operator 和操作数的 Pod 安全上下文#
NVIDIA GPU Operator 的几个操作数(例如驱动程序容器和容器工具包)需要以下提升的权限
privileged: true
hostPID: true
hostIPC: true
需要提升权限的原因如下
访问主机文件系统和硬件设备,例如 NVIDIA GPU。
重启系统服务,例如 containerd。
允许用户使用
nvidia-smi
实用程序列出所有 GPU 客户端。
只有 Kubernetes 集群管理员需要访问或管理 Operator 命名空间。作为最佳实践,请建立适当的安全策略,并防止任何其他用户访问 Operator 命名空间。
许可证和贡献#
NVIDIA GPU Operator 源代码在 Apache 2.0 许可下获得许可,并接受带有 DCO 的贡献。有关如何贡献和发行工件的更多信息,请参阅贡献文档。
该软件使用的基础镜像可能包含根据开源许可证(如 GPL)获得许可的软件。这些组件的源代码已存档在 CUDA 开源 索引中。
下表标识了 Operator 和软件组件的许可证。通过安装和使用 GPU Operator,您接受这些许可证的条款和条件。
组件 |
工件类型 |
工件许可证 |
---|---|---|
NVIDIA GPU Operator |
Helm Chart |
|
NVIDIA GPU Operator |
镜像 |
|
NVIDIA GPU Feature Discovery |
镜像 |
|
NVIDIA GPU 驱动程序 |
镜像 |
|
NVIDIA Container Toolkit |
镜像 |
|
NVIDIA Kubernetes 设备插件 |
镜像 |
|
用于 Kubernetes 的 NVIDIA MIG 管理器 |
镜像 |
|
NVIDIA GPU Operator 的验证器 |
镜像 |
|
NVIDIA DCGM |
镜像 |
|
NVIDIA DCGM Exporter |
镜像 |
|
用于 Kubernetes 的 NVIDIA 驱动程序管理器 |
镜像 |
|
NVIDIA KubeVirt GPU 设备插件 |
镜像 |
|
NVIDIA vGPU 设备管理器 |
镜像 |
|
NVIDIA GDS 驱动程序 |
镜像 |
|
用于 Kubernetes 的 NVIDIA 保密计算管理器 |
镜像 |
|
用于 Kubernetes 的 NVIDIA Kata 管理器 |
镜像 |