已知问题#
功能问题#
您无法更新 DGX H100/H200 GPU 托架中各个组件的固件。例如,您不能仅单独更新 GPU 的固件。您必须通过刷写整个 DGX H100/H200 GPU 托架来更新固件。
固件下载不是自动的。您必须从 NVIDIA 企业支持门户手动下载固件。
对于运行 DGX OS 6.0 的系统,示例命令中显示的
nvfwupd
命令行实用程序不会自动安装。您必须从 NVIDIA 企业支持门户下载该实用程序。对于运行 DGX OS 6.1 或更高版本的系统,nvfwupd
命令行实用程序已包含在操作系统中。
ConnectX-7 网络(集群)卡固件问题#
问题#
如果您的 DGX H100/H200 系统上当前安装了 NVIDIA® ConnectX®-7 网络(集群)卡固件版本 28.39.3560,您可能会遇到以下问题
在 DGX H100/H200 系统上长时间运行后,一个或多个 GPU 可能会从总线上掉线,并且
nvidia-smi
命令无法运行。断电重启后,系统将恢复,所有 GPU 将恢复运行。系统将继续长时间无任何问题地运行。在重新启动或断电重启后,DGX 系统上的一个或多个 OSFP 端口可能仍处于
Down
状态。
解决方法#
为了防止这些问题,NVIDIA 建议将以下 ConnectX-7 网卡的固件更新到版本 28.42.1000
NVIDIA ConnectX-7 网卡 |
24.09.1 版本的版本 |
推荐版本 |
---|---|---|
网络(集群)卡 |
28.39.3560 |
28.42.1000 |
网络(存储)卡 |
28.39.3560 |
28.42.1000 |
更多信息,请参考 DGX H100/H200 - ConnectX-7 网卡更新可用。
BMC 冷复位后 USB1 端口偶尔丢失#
问题#
在 BMC 版本为 24.09.17 和 HMC 版本为 rc67 的 DGX 系统上,运行 BMC 冷复位后,USB1 端口偶尔会变得不可访问,如 BMC 控制台所示
ipmitool -H <bmc-ip-address> -I lanplus -U <bmc-username> -P <bmc-password> mc reset cold
解释#
在冷复位时,HMC 也可能复位,从而导致基板遥测出现短暂延迟。
解决方法#
定期发出以下命令以确定 HMC 是否启动。当命令返回响应时,HMC 正在运行。
curl -k -u <bmc-user>:<password> --request PATCH 'https://<bmc-ip-address>/redfish/v1/Chassis/HGX_BMC_0'
固件更新期间的误导性消息#
问题#
在 ConnectX-7 固件更新过程中,在完成应用更新后,需要重新启动,这些消息提示:To load new FW, run mlxfwreset or reboot machine.
和 Please reboot machine to load new configurations.
但是,对于 ConnectX-7 固件版本 28.36.1010 及更高版本,重新启动系统无法正确加载固件更新或新配置。
解决方法#
为了成功加载固件更新和新配置,请对系统执行交流电源循环,而不是重新启动。
Redfish API 的传感器端点不支持 $expand#
问题#
对带有 $expand 参数的传感器端点发出 HTTP GET 请求(如下所示)会失败。
/redfish/v1/Chassis/DGX/Sensors?$expand=.($levels=3)
解决方法#
您可以从 Redfish API 一次请求一个传感器的数据来请求传感器数据。您可以使用 IPMI 工具来请求传感器数据。
固件升级或降级可能失败#
问题#
当您执行固件升级或降级时,更改可能会失败,并显示如下示例消息
...
[Sat 19 Aug 2023 08:20:50 AM CST] Firmware update task ended with state Exception, percentComplete: [98]
[Sat 19 Aug 2023 08:20:50 AM CST] Update RC: 1
[Sat 19 Aug 2023 08:20:50 AM CST] Collect RF task
[Sat 19 Aug 2023 08:21:01 AM CST] Update failed with [nvfw_DGX-H100_0005_230615.1.0_dbg-signed.fwpkg]:[/redfish/v1/UpdateService/FirmwareInventory/EROT_BMC_0]
解决方法#
重试固件升级或降级。
固件清单在启动期间可能无效#
问题#
在极少数情况下,轮询 BMC Redfish API 的固件清单端点可能会报告 HGX_0 组件的固件版本不准确。
解决方法#
在系统完成启动序列后查询固件清单,以检索当前的固件清单。
交流电源循环后 BMC 启动缓慢#
问题#
在交流电源循环后,BMC 可能需要大约 10 分钟才能用于通信。BMC 通常在三分钟内可用。
解决方法#
没有可用的解决方法。
温度传感器可能报告无读数#
问题#
以下传感器可能报告 No Reading
而不是温度值
TEMP_PSU4
TEMP_PSU5
PWR_PSU5
SPD_FAN_PSU5_R
SPD_FAN_PSU5_R
STATUS_PSU0
STATUS_PSU1
STATUS_PSU2
STATUS_PSU3
STATUS_PSU4
STATUS_PSU5
STATUS_HMC
TEMP_PCIE_SW_1
TEMP_Cedar_OSFP0
TEMP_Cedar_OSFP1
TEMP_Cedar_OSFP2
TEMP_Cedar_OSFP3
TEMP_PCIE_CX7_1
TEMP_PCIE_CX7_2
TEMP_CX7_QSFP0
TEMP_CX7_QSFP1
TEMP_CX7_QSFP2
TEMP_CX7_QSFP3
TEMP_Intel_NIC
TEMP_NIC_QSFP0
TEMP_NIC_QSFP1
解决方法#
再次轮询传感器可以解决此问题。