降级 ConnectX 固件#

DGX OS 5.0 提供了 mlnx-fw-updater 软件包版本 5.1-2.4.6.0,该版本会在 ConnectX-4 设备上自动安装固件版本 12.28.2040。

由于 12.28.2006 是推荐的固件版本,因此在 12 月 15 日,更新程序包已更新为安装版本 12.28.2006。但是,如果固件已更新到 12.28.2040,则更新程序将不会安装较低版本的固件,因为已安装了较新版本。

在这种情况下,您需要强制降级,如本节所述。

检查设备类型#

您可以使用 mlxfwmanager 工具来验证您的 DGX 系统上是否安装了 ConnectX-4 设备。

运行以下命令

sudo mlxfwmanager
Querying Mellanox devices firmware ... Device #1:
Device Type: ConnectX4
Part Number: MCX455A-ECA_Ax
Description: ConnectX-4 VPI adapter card; EDR IB (100Gb/s) and 100GbE;
single-port QSFP28; PCIe3.0 x16; ROHS R6
PSID: MT_2180110032
PCI Device Name: /dev/mst/mt4115_pciconf1 Base GUID: 248a070300945e60
Versions: Current Available FW 12.28.2040 N/A
PXE 3.6.0102 N/A
UEFI 14.21.0017 N/A

降级固件#

如果输出表明已安装 ConnectX-4 设备,则您需要降级固件。

要降级固件

  1. 确定正确的固件软件包名称。

  2. 切换到 /opt/Mellanox/mlnx-fw-updater/firmware 目录,更新程序会在其中安装固件文件,并列出内容。

    ls /opt/mellanox/mlnx-fw-updater/firmware
    
  3. 从输出中识别正确的软件包。

    mlxfwmanager_sriov_dis_x86_64_4115
    mlxfwmanager_sriov_dis_x86_64_4119
    mlxfwmanager_sriov_dis_x86_64_4123
    mlxfwmanager_sriov_dis_x86_64_4127
    mlxfwmanager_sriov_dis_x86_64_41686
    mlxfwmanager_sriov_dis_x86_64_4117
    mlxfwmanager_sriov_dis_x86_64_4121
    mlxfwmanager_sriov_dis_x86_64_4125
    mlxfwmanager_sriov_dis_x86_64_41682
    
  4. 通过使用 -f 标志执行固件软件包。

    cd /opt/mellanox/mlnx-fw-updater/firmware
    
    sudo ./mlxfwmanager_sriov_dis_x86_64_4115 -f
    
    The software queries the current firmware and then updates
    (downgrades) the firmware.
    Querying Mellanox devices firmware …
    Found 2 device(s) requiring firmware update... Device #1: Updating FW
    …
    Initializing image partition - OK Writing Boot image component - OK
    Done
    Device #2: Updating FW …
    Initializing image partition - OK
    Writing Boot image component - OK Done
    
  5. 重启系统以使更新生效。

    sudo reboot