Kubernetes 部署#
本节介绍在 BCM 头节点上执行的配置步骤。
在 root shell 中,运行 Kubernetes 设置脚本。
cm-kubernetes-setup
选择“部署”继续
选择为 NVIDIA AI Enterprise 认证的最新版本。
(可选)如果需要,在此处输入私有 registry 服务器。
保留集群的默认设置。
选择“是”以允许从头节点使用集群。
选择 internalnet,因为 Kubernetes 控制节点使用它。
为控制平面选择 3 个 knodes。
为 Kubernetes 工作节点选择 dgx-h100 类别。
跳过选择单个工作节点。
选择 3 个 knodes 作为 Etcd 节点。
接受默认值。
选择 Calico 插件。
对于安装 Kyverno Policy Engine,选择“否”。
(可选)如果已提供 NVAIE 许可证,请选择“是”并在下一页输入详细信息。否则,选择“否”。
选择以下要安装的 Operator
NVIDIA GPU Operator
网络 Operator
Prometheus 适配器
Prometheus Operator Stack
cm-jupyter-kernel-operator
cm-kubernetes-mpi-operator
选择为 NVIDIA AI Enterprise 认证的最新版本。
选择为 NVIDIA AI Enterprise 认证的最新版本。
将自定义 YAML 文件留空。
选择 cdi.enabled 和 nfd.enabled。
将自定义 YAML 文件留空。
通过选择以下项配置网络 Operator
nfd.enabled
sriovNetworkOperator.enabled
deployCR
secondaryNetwork.deploy
secondaryNetwork.cniPlugins.deploy
secondaryNetwork.multus.deploy
secondaryNetwork.ipamPlugin.deploy
部署所有插件。
将端口保留为默认值。
选择“是”以安装 Permission Manager。
对于本地存储路径,选择“启用”和“默认”。
将存储路径保留为默认值。
选择“保存配置并部署”。
保留配置文件的默认文件路径并继续。
Kubernetes 设置完成后,检查所有节点是否在线。
root@bcm10-headnode:~# kubectl get nodes NAME STATUS ROLES AGE VERSION dgx-01 Ready worker 5m56s v1.28.10 dgx-02 Ready worker 5m49s v1.28.10 ... knode-01 Ready control-plane,master 6m26s v1.28.10 knode-02 Ready control-plane,master 5m47s v1.28.10 knode-03 Ready control-plane,master 5m56s v1.28.10