Kubernetes 部署#

本节介绍在 BCM 头节点上执行的配置步骤。

  1. 在 root shell 中,运行 Kubernetes 设置脚本。

    cm-kubernetes-setup
    
  2. 选择“部署”继续

    _images/kube-deploy-01.png
  3. 选择为 NVIDIA AI Enterprise 认证的最新版本。

    _images/kube-deploy-02.png
  4. (可选)如果需要,在此处输入私有 registry 服务器。

    _images/kube-deploy-03.png
  5. 保留集群的默认设置。

    _images/kube-deploy-04.png
  6. 选择“是”以允许从头节点使用集群。

    _images/kube-deploy-05.png
  7. 选择 internalnet,因为 Kubernetes 控制节点使用它。

    _images/kube-deploy-06.png
  8. 为控制平面选择 3 个 knodes。

    _images/kube-deploy-07.png
  9. 为 Kubernetes 工作节点选择 dgx-h100 类别。

    _images/kube-deploy-09.png
  10. 跳过选择单个工作节点。

    _images/kube-deploy-10.png
  11. 选择 3 个 knodes 作为 Etcd 节点。

    _images/kube-deploy-11.png
  12. 接受默认值。

    _images/kube-deploy-12.png
  13. 选择 Calico 插件。

    _images/kube-deploy-13.png
  14. 对于安装 Kyverno Policy Engine,选择“否”。

    _images/kube-deploy-14.png
  15. (可选)如果已提供 NVAIE 许可证,请选择“是”并在下一页输入详细信息。否则,选择“否”。

    _images/kube-deploy-14-2.png
  16. 选择以下要安装的 Operator

    • NVIDIA GPU Operator

    • 网络 Operator

    • Prometheus 适配器

    • Prometheus Operator Stack

    • cm-jupyter-kernel-operator

    • cm-kubernetes-mpi-operator

    _images/kube-deploy-15.png
  17. 选择为 NVIDIA AI Enterprise 认证的最新版本。

    _images/kube-deploy-16.png
  18. 选择为 NVIDIA AI Enterprise 认证的最新版本。

    _images/kube-deploy-17.png
  19. 将自定义 YAML 文件留空。

    _images/kube-deploy-18.png
  20. 选择 cdi.enabled 和 nfd.enabled。

    _images/kube-deploy-18-2.png
  21. 将自定义 YAML 文件留空。

    _images/kube-deploy-18-3.png
  22. 通过选择以下项配置网络 Operator

    • nfd.enabled

    • sriovNetworkOperator.enabled

    • deployCR

    • secondaryNetwork.deploy

    • secondaryNetwork.cniPlugins.deploy

    • secondaryNetwork.multus.deploy

    • secondaryNetwork.ipamPlugin.deploy

    _images/kube-deploy-19.png
  23. 部署所有插件。

    _images/kube-deploy-20.png
  24. 将端口保留为默认值。

    _images/kube-deploy-21.png
  25. 选择“是”以安装 Permission Manager。

    _images/kube-deploy-22.png
  26. 对于本地存储路径,选择“启用”和“默认”。

    _images/kube-deploy-23.png
  27. 将存储路径保留为默认值。

    _images/kube-deploy-24.png
  28. 选择“保存配置并部署”。

    _images/kube-deploy-25.png
  29. 保留配置文件的默认文件路径并继续。

    _images/kube-deploy-26.png
  30. Kubernetes 设置完成后,检查所有节点是否在线。

    root@bcm10-headnode:~# kubectl get nodes
    NAME       STATUS   ROLES                  AGE     VERSION
    dgx-01     Ready    worker                 5m56s   v1.28.10
    dgx-02     Ready    worker                 5m49s   v1.28.10
    ...
    knode-01   Ready    control-plane,master   6m26s   v1.28.10
    knode-02   Ready    control-plane,master   5m47s   v1.28.10
    knode-03   Ready    control-plane,master   5m56s   v1.28.10