降级 ConnectX 固件#
DGX OS 5.0 提供了 mlnx-fw-updater 软件包版本 5.1-2.4.6.0,该版本会在 ConnectX-4 设备上自动安装固件版本 12.28.2040。
由于 12.28.2006 是推荐的固件版本,因此在 12 月 15 日,更新程序包已更新为安装版本 12.28.2006。但是,如果固件已更新到 12.28.2040,则更新程序将不会安装较低版本的固件,因为已安装了较新版本。
在这种情况下,您需要强制降级,如本节所述。
检查设备类型#
您可以使用 mlxfwmanager 工具来验证您的 DGX 系统上是否安装了 ConnectX-4 设备。
运行以下命令
sudo mlxfwmanager
Querying Mellanox devices firmware ... Device #1:
Device Type: ConnectX4
Part Number: MCX455A-ECA_Ax
Description: ConnectX-4 VPI adapter card; EDR IB (100Gb/s) and 100GbE;
single-port QSFP28; PCIe3.0 x16; ROHS R6
PSID: MT_2180110032
PCI Device Name: /dev/mst/mt4115_pciconf1 Base GUID: 248a070300945e60
Versions: Current Available FW 12.28.2040 N/A
PXE 3.6.0102 N/A
UEFI 14.21.0017 N/A
降级固件#
如果输出表明已安装 ConnectX-4 设备,则您需要降级固件。
要降级固件
确定正确的固件软件包名称。
切换到
/opt/Mellanox/mlnx-fw-updater/firmware
目录,更新程序会在其中安装固件文件,并列出内容。ls /opt/mellanox/mlnx-fw-updater/firmware
从输出中识别正确的软件包。
mlxfwmanager_sriov_dis_x86_64_4115 mlxfwmanager_sriov_dis_x86_64_4119 mlxfwmanager_sriov_dis_x86_64_4123 mlxfwmanager_sriov_dis_x86_64_4127 mlxfwmanager_sriov_dis_x86_64_41686 mlxfwmanager_sriov_dis_x86_64_4117 mlxfwmanager_sriov_dis_x86_64_4121 mlxfwmanager_sriov_dis_x86_64_4125 mlxfwmanager_sriov_dis_x86_64_41682
通过使用
-f
标志执行固件软件包。cd /opt/mellanox/mlnx-fw-updater/firmware
sudo ./mlxfwmanager_sriov_dis_x86_64_4115 -f The software queries the current firmware and then updates (downgrades) the firmware. Querying Mellanox devices firmware … Found 2 device(s) requiring firmware update... Device #1: Updating FW … Initializing image partition - OK Writing Boot image component - OK Done Device #2: Updating FW … Initializing image partition - OK Writing Boot image component - OK Done
重启系统以使更新生效。
sudo reboot