头节点配置#
本节介绍要在 BCM 头节点上执行的配置步骤。
使用 root (非 cmsh) shell。
在 /cm/local/apps/cmd/etc/cmd.conf 中,取消注释 AdvancedConfig 参数。
AdvancedConfig = { "DeviceResolveAnyMAC=1" } # modified value
重启 CMDaemon 以启用从绑定接口的可靠 PXE 启动。
systemctl restart cmd
由于重启了 CMDaemon,cmsh 会话将被断开连接。在 CMDaemon 重启后,输入 connect 以重新连接。或者输入 exit 然后重启 cmsh。以下步骤在头节点上执行,应针对所有 DGX 系统运行。
警告
旧方法:仅当您采用 MAC 到 IP 分配方法时,才需要执行以下步骤。较新的方法省略了基于端口分配 MAC 地址。跳至 步骤 #9。
以下步骤在头节点上执行,应针对所有 DGX 系统运行。
在头节点上,设置物理接口上的 MAC 地址。
注意
仔细检查每个接口的 MAC 地址和 bond0 接口的 IP 号。此处的错误将难以诊断。
对于 DGX A100 系统,命令应类似于此代码块。
1# cmsh 2% device 3% use bcm-dgx-a100-01 4% interfaces 5% use enp225s0f1np1 6% set mac B8:CE:F6:2F:08:69 7% use enp97s0f1np1 8% set mac B8:CE:F6:2D:0E:A7 9% .. 10% commit
对于 DGX H100 系统,命令应类似于此代码块。
1# cmsh 2% device 3% use bcm-dgx-h100-01 4% interfaces 5% use enp170s0f1np1 6% set mac B8:CE:F6:2F:08:69 7% use enp41s0f1np1 8% set mac B8:CE:F6:2D:0E:A7 9% .. 10% commit
验证配置。
此示例适用于 DGX A100 系统。DGX H100 系统的输出类似。
1% get provisioninginterface 2bond0 3% interfaces 4% list 5Type Network device name IP Network Start if 6------------ -------------------- ---------------- ---------------- -------- 7bmc ipmi0 10.130.111.68 ipminet always 8bond bond0 [prov] 10.130.122.5 internalnet always 9physical enp225s0f1np1 (bond0) 0.0.0.0 always 10physical enp97s0f1np1 (bond0) 0.0.0.0 always
通过为每个节点的配置接口设置 MAC 地址为站点调查中列出的 MAC 地址来识别节点。
1% device 2% use bcm-dgx-h100-01 3% set mac b8:ce:f6:2f:08:69 4% use bcm-dgx-h100-02 5% set mac 0c:42:a1:54:32:a7 6% use bcm-dgx-h100-03 7% set mac 0c:42:a1:0a:7a:51 8% use bcm-dgx-h100-04 9% set mac 1c:34:da:29:17:6e 10% foreach -c dgx-h100 (get mac) 11B8:CE:F6:2F:08:69 120C:42:A1:54:32:A7 130C:42:A1:0A:7A:51 141C:34:DA:29:17:6E
如果所有 MAC 地址都设置正确,请提交更改。
1% device commit 2% quit
设置以太网接口的 MAC 地址。
对于连接到 DGX A100 系统的控制节点,请使用以下命令。
1% device 2% use bcm-cpu-01 3% interfaces 4% use ens2f0np0 5% set mac 88:e9:a4:92:26:ba 6% use ens2f1np1 7% set mac 88:e9:a4:92:26:bb 8% commit
对于连接到 DGX H100 系统的控制节点,请使用以下命令。
1% device 2% use bcm-cpu-01 3% interfaces 4% use enp37s0np0 5% set mac 88:e9:a4:92:26:ba 6% use enp65s0np0 7% set mac 88:e9:a4:92:26:bb 8% commit
如果头节点使用绑定接口,请使用以下命令。您可能需要重启头节点并重做 request-license 步骤。
1% device 2% use headnode-01 3% interfaces 4% use ens1np0 5% clear ip 6% clear network 7% add physical ens2np0 8% set mac 88:e9:a4:20:18:d8 9% add bond bond0 10% append interfaces ens1np0 ens2np0 11% set mode 1 12% set network internalnet 13% set ip 10.180.115.189 14% .. 15% .. 16% set provisioninginterface bond0 17% interfaces 18% use ipmi0 19% set ip 10.180.217.154
设置 bond0 接口的 IP 地址。
1% device 2% use bcm-cpu-01 3% interfaces 4% use bond0 5% set ip 10.127.3.15 6% commit
开启电源并配置集群节点。
对于初始配置,集群节点必须直接或使用 KVM 开启电源。节点需要几分钟才能完成 BIOS 过程。之后,将显示节点状态进度,因为节点正在配置中。监控 /var/log/messages 和 /var/log/node-installer 日志文件,以验证一切运行顺利。
较新方法#
先决条件#
交换机必须处于 UP 位置,才能从 CSV 文件中指定的交换机和交换机端口检索 MAC 地址。
如果任何 TOR 脱机,Bright 将无法从交换机检索 MAC 地址。
验证#
确保天气节点接口已分配交换机和交换机端口。导航至 cmsh > device > use <node> 并执行“show”命令。

下一步#
重启节点
每个节点的详细 MAC 地址不是必需的,因为 Bright 将根据交换机和交换机端口分配自动检测它们。