更新 ConnectX-7 固件#

更换或安装 ConnectX-7 网卡后,请确保网卡上的固件是最新的。

请参阅NVIDIA DGX B200 固件更新指南以查找最新的固件版本。

  1. https://network.nvidia.com/support/firmware/connectx7ib/下载固件。

    下载适用于两个 OPN 选项的固件。

  2. 将固件 ZIP 文件传输到 DGX 系统并解压存档。

  3. 更新用于集群通信的网卡上的固件

    sudo mstflint -d /sys/bus/pci/devices/0000:5e:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:dc:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:c0:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:18:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:40:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:4f:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:ce:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:9a:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX750500B-0D00_Ax_Bx-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    
  4. 更新用于存储通信的网卡上的固件

    sudo mstflint -d /sys/bus/pci/devices/0000:aa:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX755206AS-NEA_Ax-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    sudo mstflint -d /sys/bus/pci/devices/0000:29:00.0/config -i fw-ConnectX7-rel-28_43_2026-MCX755206AS-NEA_Ax-UEFI-14.36.21-FlexBoot-3.7.500.signed.bin  b
    
  5. 对系统执行交流电源重启,以使固件更新生效。

    等待操作系统启动。

  6. 系统启动后,登录并确认固件版本均相同

    $ cat /sys/class/infiniband/mlx5_*/fw_ver