安装 NVIDIA GPU Operator#

在版本 2.0 中添加。

GPU Operator 允许 Kubernetes 集群的 DevOps 工程师像管理集群中的 CPU 节点一样管理 GPU 节点。它安装和管理软件组件的生命周期,以便在 Kubernetes 上运行 GPU 加速的应用程序。

  1. 在 OpenShift Container Platform Web 控制台中,从侧边菜单导航到 Operators > Operator Hub 并确保选择了 “所有项目”。

  2. Operators > Operator Hub 中搜索 NVIDIA GPU Operator

    _images/os-on-bm-gpuop1.png

    注意

    有关更多信息,请参阅 Red Hat OpenShift Container Platform 文档

  3. 选择 NVIDIA GPU Operator,点击 安装。在随后的屏幕中点击 安装

  4. 显示“安装 Operator”对话框屏幕,点击“安装”。

注意

在此处,您可以选择要部署 GPU Operator 的命名空间。建议使用的命名空间是 nvidia-gpu-operator。您可以选择任何现有命名空间或在 选择命名空间 下创建新的命名空间。

如果安装在 nvidia-gpu-operator 之外的任何其他命名空间中,GPU Operator 将 不会 自动启用命名空间监控,并且 Prometheus 将 不会 收集指标和警报。如果此命名空间中仅安装了受信任的 Operator,您可以手动使用以下命令启用命名空间监控

$ oc label ns/$NAMESPACE_NAME openshift.io/cluster-monitoring=true