安装 NVIDIA GPU Operator#

在 2.0 版本中添加。

GPU Operator 允许 Kubernetes 集群的 DevOps 工程师像管理集群中的 CPU 节点一样管理 GPU 节点。它安装和管理软件组件的生命周期,以便 GPU 加速的应用程序可以在 Kubernetes 上运行。

  1. 在 OpenShift Container Platform Web 控制台中,从侧边菜单导航到 Operators > Operator Hub,并确保已选择“所有项目”。

  2. Operators > Operator Hub 中搜索 NVIDIA GPU Operator

    _images/openshift-gpu-operator1.png

    注意

    有关更多信息,请参阅 Red Hat OpenShift Container Platform 文档

  3. 选择 NVIDIA GPU Operator,点击 Install。在随后的屏幕中点击 Install

  4. 将显示“安装 Operator”对话框屏幕,点击“安装”。

注意

在这里,您可以选择要部署 GPU Operator 的命名空间。建议使用的命名空间是 nvidia-gpu-operator。您可以选择任何现有命名空间或在“选择命名空间”下创建新的命名空间。

如果您安装在 nvidia-gpu-operator 以外的任何其他命名空间中,GPU Operator 将不会自动启用命名空间监控,Prometheus 也不会收集指标和警报。如果此命名空间中仅安装了受信任的 Operator,您可以手动使用此命令启用命名空间监控

$ oc label ns/$NAMESPACE_NAME openshift.io/cluster-monitoring=true