Slurm 部署#

本节介绍在 BCM 头节点上执行的配置步骤。

在 root shell 中，运行工作负载管理器设置脚本。
cm-wlm-setup
选择 Setup (Step By Step) 开始。
选择 Slurm 作为工作负载管理器。
可以为集群设置任何名称。在本例中，将保留默认名称。
选择两个 slogin 节点作为服务器角色。
选择 slogin-01 作为主服务器节点。
将 overlay 名称和优先级保留为默认值。
不要为客户端角色选择任何类别。此 Slurm 集群中将只有 gpu 客户端。
不要为客户端角色选择任何节点。
将 overlay 名称和优先级保留为默认值。
不要启用任何健康检查生产者，然后选择 Ok。
选择 yes 以配置 GPU。
将 overlay 名称保留为默认值。
为 gpu 客户端角色选择 dgx-h100 类别。
不要为 gpu 客户端角色选择任何节点。
将 gpu 客户端角色的优先级保留为默认值。
将插槽数留空。
为提交角色选择 slogin 类别。
不要为提交角色选择任何其他节点。
将提交角色的 overlay 和优先级保留为默认值。
将 accounting 角色的 overlay 和优先级保留为默认值。
将 Slurm accounting 的存储主机设置为 slogin-01。
选择 no 以禁用 scontrol takeover。
选择 no 以禁用节能功能。
选择 BCM autodetects GPUs
选择 yes 以配置 Pyxis 插件。
将 enroot 设置保留为默认值。
不要选择任何 Cgroups 资源约束。
不要安装 NVIDIA GPU 软件包。DGX 软件镜像已经安装了它们。
将队列名称保留为默认值。
选择 Save config & deploy。
将文件名和路径保留为默认值。
安装完成后，并且集群节点在 BCM 中返回到 [ UP ] 状态后，转到 slogin-01 并运行 sinfo 以确认所有可用的 DGX 工作节点都处于空闲状态。
ssh slogin-01 sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST defq* up infinite 20 idle dgx-[01-04]