安装 NVIDIA GPU Operator#
在 2.0 版本中添加。
GPU Operator 允许 Kubernetes 集群的 DevOps 工程师像管理集群中的 CPU 节点一样管理 GPU 节点。它安装和管理软件组件的生命周期,以便 GPU 加速的应用程序可以在 Kubernetes 上运行。
在 OpenShift Container Platform Web 控制台中,从侧边菜单导航到 Operators > Operator Hub,并确保已选择“所有项目”。
在 Operators > Operator Hub 中搜索 NVIDIA GPU Operator。
注意
有关更多信息,请参阅 Red Hat OpenShift Container Platform 文档。
选择 NVIDIA GPU Operator,点击 Install。在随后的屏幕中点击 Install。
将显示“安装 Operator”对话框屏幕,点击“安装”。
注意
在这里,您可以选择要部署 GPU Operator 的命名空间。建议使用的命名空间是 nvidia-gpu-operator
。您可以选择任何现有命名空间或在“选择命名空间”下创建新的命名空间。
如果您安装在 nvidia-gpu-operator
以外的任何其他命名空间中,GPU Operator 将不会自动启用命名空间监控,Prometheus 也不会收集指标和警报。如果此命名空间中仅安装了受信任的 Operator,您可以手动使用此命令启用命名空间监控
$ oc label ns/$NAMESPACE_NAME openshift.io/cluster-monitoring=true