Slurm 部署#

本节介绍在 BCM 头节点上执行的配置步骤。

  1. 在 root shell 中,运行工作负载管理器设置脚本。

    cm-wlm-setup
    
  2. 选择 Setup (Step By Step) 开始。

    _images/slurm-deploy-01.png
  3. 选择 Slurm 作为工作负载管理器。

    _images/slurm-deploy-02.png
  4. 可以为集群设置任何名称。在本例中,将保留默认名称。

    _images/slurm-deploy-03.png
  5. 选择两个 slogin 节点作为服务器角色。

    _images/slurm-deploy-04.png
  6. 选择 slogin-01 作为主服务器节点。

    _images/slurm-deploy-05.png
  7. 将 overlay 名称和优先级保留为默认值。

    _images/slurm-deploy-06.png
  8. 不要为客户端角色选择任何类别。此 Slurm 集群中将只有 gpu 客户端。

    _images/slurm-deploy-07.png
  9. 不要为客户端角色选择任何节点。

    _images/slurm-deploy-08.png
  10. 将 overlay 名称和优先级保留为默认值。

    _images/slurm-deploy-09.png
  11. 不要启用任何健康检查生产者,然后选择 Ok。

    _images/slurm-deploy-10.png
  12. 选择 yes 以配置 GPU。

    _images/slurm-deploy-11.png
  13. 将 overlay 名称保留为默认值。

    _images/slurm-deploy-12.png
  14. 为 gpu 客户端角色选择 dgx-h100 类别。

    _images/slurm-deploy-13.png
  15. 不要为 gpu 客户端角色选择任何节点。

    _images/slurm-deploy-14.png
  16. 将 gpu 客户端角色的优先级保留为默认值。

    _images/slurm-deploy-15.png
  17. 将插槽数留空。

    _images/slurm-deploy-16.png
  18. 为提交角色选择 slogin 类别。

    _images/slurm-deploy-17.png
  19. 不要为提交角色选择任何其他节点。

    _images/slurm-deploy-18.png
  20. 将提交角色的 overlay 和优先级保留为默认值。

    _images/slurm-deploy-19.png
  21. 将 accounting 角色的 overlay 和优先级保留为默认值。

    _images/slurm-deploy-20.png
  22. 将 Slurm accounting 的存储主机设置为 slogin-01。

    _images/slurm-deploy-21.png
  23. 选择 no 以禁用 scontrol takeover

    _images/slurm-deploy-22.png
  24. 选择 no 以禁用节能功能。

    _images/slurm-deploy-23.png
  25. 选择 BCM autodetects GPUs

    _images/slurm-deploy-24.png
  26. 选择 yes 以配置 Pyxis 插件。

    _images/slurm-deploy-25.png
  27. 将 enroot 设置保留为默认值。

    _images/slurm-deploy-26.png
  28. 不要选择任何 Cgroups 资源约束。

    _images/slurm-deploy-27.png
  29. 不要安装 NVIDIA GPU 软件包。DGX 软件镜像已经安装了它们。

    _images/slurm-deploy-28.png
  30. 将队列名称保留为默认值。

    _images/slurm-deploy-29.png
  31. 选择 Save config & deploy

    _images/slurm-deploy-30.png
  32. 将文件名和路径保留为默认值。

    _images/slurm-deploy-31.png
  33. 安装完成后,并且集群节点在 BCM 中返回到 [ UP ] 状态后,转到 slogin-01 并运行 sinfo 以确认所有可用的 DGX 工作节点都处于空闲状态。

    ssh slogin-01
    sinfo
    PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
    defq*        up   infinite     20   idle dgx-[01-04]