头节点配置#

本节介绍要在 BCM 头节点上执行的配置步骤。

使用 root (非 cmsh) shell。

  1. 在 /cm/local/apps/cmd/etc/cmd.conf 中,取消注释 AdvancedConfig 参数。

    AdvancedConfig = { "DeviceResolveAnyMAC=1" } # modified value
    
  2. 重启 CMDaemon 以启用从绑定接口的可靠 PXE 启动。

    systemctl restart cmd
    

    由于重启了 CMDaemon,cmsh 会话将被断开连接。在 CMDaemon 重启后,输入 connect 以重新连接。或者输入 exit 然后重启 cmsh。以下步骤在头节点上执行,应针对所有 DGX 系统运行。

    警告

    旧方法:仅当您采用 MAC 到 IP 分配方法时,才需要执行以下步骤。较新的方法省略了基于端口分配 MAC 地址。跳至 步骤 #9

  3. 以下步骤在头节点上执行,应针对所有 DGX 系统运行。

    在头节点上,设置物理接口上的 MAC 地址。

    注意

    仔细检查每个接口的 MAC 地址和 bond0 接口的 IP 号。此处的错误将难以诊断。

    对于 DGX A100 系统,命令应类似于此代码块。

     1# cmsh
     2% device
     3% use  bcm-dgx-a100-01
     4% interfaces
     5% use enp225s0f1np1
     6% set mac B8:CE:F6:2F:08:69
     7% use enp97s0f1np1
     8% set mac B8:CE:F6:2D:0E:A7
     9% ..
    10% commit
    

    对于 DGX H100 系统,命令应类似于此代码块。

     1# cmsh
     2% device
     3% use bcm-dgx-h100-01
     4% interfaces
     5% use enp170s0f1np1
     6% set mac B8:CE:F6:2F:08:69
     7% use enp41s0f1np1
     8% set mac B8:CE:F6:2D:0E:A7
     9% ..
    10% commit
    
  4. 验证配置。

    此示例适用于 DGX A100 系统。DGX H100 系统的输出类似。

     1% get provisioninginterface
     2bond0
     3% interfaces
     4% list
     5Type         Network device name  IP               Network          Start if
     6------------ -------------------- ---------------- ---------------- --------
     7bmc          ipmi0                10.130.111.68    ipminet          always
     8bond         bond0 [prov]         10.130.122.5     internalnet      always
     9physical     enp225s0f1np1 (bond0)   0.0.0.0                        always
    10physical     enp97s0f1np1 (bond0)    0.0.0.0                        always
    
  5. 通过为每个节点的配置接口设置 MAC 地址为站点调查中列出的 MAC 地址来识别节点。

     1% device
     2% use bcm-dgx-h100-01
     3% set mac b8:ce:f6:2f:08:69
     4% use bcm-dgx-h100-02
     5% set mac 0c:42:a1:54:32:a7
     6% use bcm-dgx-h100-03
     7% set mac 0c:42:a1:0a:7a:51
     8% use bcm-dgx-h100-04
     9% set mac 1c:34:da:29:17:6e
    10% foreach -c  dgx-h100 (get mac)
    11B8:CE:F6:2F:08:69
    120C:42:A1:54:32:A7
    130C:42:A1:0A:7A:51
    141C:34:DA:29:17:6E
    
  6. 如果所有 MAC 地址都设置正确,请提交更改。

    1% device commit
    2% quit
    
  7. 设置以太网接口的 MAC 地址。

    对于连接到 DGX A100 系统的控制节点,请使用以下命令。

    1% device
    2% use bcm-cpu-01
    3% interfaces
    4% use ens2f0np0
    5% set mac 88:e9:a4:92:26:ba
    6% use ens2f1np1
    7% set mac 88:e9:a4:92:26:bb
    8% commit
    

    对于连接到 DGX H100 系统的控制节点,请使用以下命令。

    1% device
    2% use bcm-cpu-01
    3% interfaces
    4% use enp37s0np0
    5% set mac 88:e9:a4:92:26:ba
    6% use enp65s0np0
    7% set mac 88:e9:a4:92:26:bb
    8% commit
    

    如果头节点使用绑定接口,请使用以下命令。您可能需要重启头节点并重做 request-license 步骤。

     1% device
     2% use headnode-01
     3% interfaces
     4% use ens1np0
     5% clear ip
     6% clear network
     7% add physical ens2np0
     8% set mac 88:e9:a4:20:18:d8
     9% add bond bond0
    10% append interfaces ens1np0 ens2np0
    11% set mode 1
    12% set network internalnet
    13% set ip 10.180.115.189
    14% ..
    15% ..
    16% set provisioninginterface bond0
    17% interfaces
    18% use ipmi0
    19% set ip 10.180.217.154
    
  8. 设置 bond0 接口的 IP 地址。

    1% device
    2% use bcm-cpu-01
    3% interfaces
    4% use bond0
    5% set ip 10.127.3.15
    6% commit
    
  9. 开启电源并配置集群节点。

    对于初始配置,集群节点必须直接或使用 KVM 开启电源。节点需要几分钟才能完成 BIOS 过程。之后,将显示节点状态进度,因为节点正在配置中。监控 /var/log/messages/var/log/node-installer 日志文件,以验证一切运行顺利。

较新方法#

先决条件#

  • 交换机必须处于 UP 位置,才能从 CSV 文件中指定的交换机和交换机端口检索 MAC 地址。

    • 如果任何 TOR 脱机,Bright 将无法从交换机检索 MAC 地址。

验证#

  • 确保天气节点接口已分配交换机和交换机端口。导航至 cmsh > device > use <node> 并执行“show”命令。

_images/head-node-01.png

下一步#

  • 重启节点

    • 每个节点的详细 MAC 地址不是必需的,因为 Bright 将根据交换机和交换机端口分配自动检测它们。