已知问题#

功能问题#

  • 您无法更新 DGX H100/H200 GPU 托架中各个组件的固件。例如,您不能仅单独更新 GPU 的固件。您必须通过刷写整个 DGX H100/H200 GPU 托架来更新固件。

  • 固件下载不是自动的。您必须从 NVIDIA 企业支持门户手动下载固件。

  • 对于运行 DGX OS 6.0 的系统,示例命令中显示的 nvfwupd 命令行实用程序不会自动安装。您必须从 NVIDIA 企业支持门户下载该实用程序。对于运行 DGX OS 6.1 或更高版本的系统,nvfwupd 命令行实用程序已包含在操作系统中。

ConnectX-7 网络(集群)卡固件问题#

问题#

如果您的 DGX H100/H200 系统上当前安装了 NVIDIA® ConnectX®-7 网络(集群)卡固件版本 28.39.3560,您可能会遇到以下问题

  • 在 DGX H100/H200 系统上长时间运行后,一个或多个 GPU 可能会从总线上掉线,并且 nvidia-smi 命令无法运行。断电重启后,系统将恢复,所有 GPU 将恢复运行。系统将继续长时间无任何问题地运行。

  • 在重新启动或断电重启后,DGX 系统上的一个或多个 OSFP 端口可能仍处于 Down 状态。

解决方法#

为了防止这些问题,NVIDIA 建议将以下 ConnectX-7 网卡的固件更新到版本 28.42.1000

NVIDIA ConnectX-7 网卡

24.09.1 版本的版本

推荐版本

网络(集群)卡

28.39.3560

28.42.1000

网络(存储)卡

28.39.3560

28.42.1000

更多信息,请参考 DGX H100/H200 - ConnectX-7 网卡更新可用

BMC 冷复位后 USB1 端口偶尔丢失#

问题#

在 BMC 版本为 24.09.17 和 HMC 版本为 rc67 的 DGX 系统上,运行 BMC 冷复位后,USB1 端口偶尔会变得不可访问,如 BMC 控制台所示

ipmitool -H <bmc-ip-address> -I lanplus -U <bmc-username> -P <bmc-password> mc reset cold

解释#

在冷复位时,HMC 也可能复位,从而导致基板遥测出现短暂延迟。

解决方法#

定期发出以下命令以确定 HMC 是否启动。当命令返回响应时,HMC 正在运行。

curl -k -u <bmc-user>:<password> --request PATCH 'https://<bmc-ip-address>/redfish/v1/Chassis/HGX_BMC_0'

固件更新期间的误导性消息#

问题#

在 ConnectX-7 固件更新过程中,在完成应用更新后,需要重新启动,这些消息提示:To load new FW, run mlxfwreset or reboot machine.Please reboot machine to load new configurations. 但是,对于 ConnectX-7 固件版本 28.36.1010 及更高版本,重新启动系统无法正确加载固件更新或新配置。

解决方法#

为了成功加载固件更新和新配置,请对系统执行交流电源循环,而不是重新启动。

Redfish API 的传感器端点不支持 $expand#

问题#

对带有 $expand 参数的传感器端点发出 HTTP GET 请求(如下所示)会失败。

/redfish/v1/Chassis/DGX/Sensors?$expand=.($levels=3)

解决方法#

您可以从 Redfish API 一次请求一个传感器的数据来请求传感器数据。您可以使用 IPMI 工具来请求传感器数据。

固件升级或降级可能失败#

问题#

当您执行固件升级或降级时,更改可能会失败,并显示如下示例消息

...
[Sat 19 Aug 2023 08:20:50 AM CST] Firmware update task ended with state Exception, percentComplete: [98]
[Sat 19 Aug 2023 08:20:50 AM CST] Update RC: 1
[Sat 19 Aug 2023 08:20:50 AM CST] Collect RF task
[Sat 19 Aug 2023 08:21:01 AM CST] Update failed with [nvfw_DGX-H100_0005_230615.1.0_dbg-signed.fwpkg]:[/redfish/v1/UpdateService/FirmwareInventory/EROT_BMC_0]

解决方法#

重试固件升级或降级。

固件清单在启动期间可能无效#

问题#

在极少数情况下,轮询 BMC Redfish API 的固件清单端点可能会报告 HGX_0 组件的固件版本不准确。

解决方法#

在系统完成启动序列后查询固件清单,以检索当前的固件清单。

交流电源循环后 BMC 启动缓慢#

问题#

在交流电源循环后,BMC 可能需要大约 10 分钟才能用于通信。BMC 通常在三分钟内可用。

解决方法#

没有可用的解决方法。

温度传感器可能报告无读数#

问题#

以下传感器可能报告 No Reading 而不是温度值

  • TEMP_PSU4

  • TEMP_PSU5

  • PWR_PSU5

  • SPD_FAN_PSU5_R

  • SPD_FAN_PSU5_R

  • STATUS_PSU0

  • STATUS_PSU1

  • STATUS_PSU2

  • STATUS_PSU3

  • STATUS_PSU4

  • STATUS_PSU5

  • STATUS_HMC

  • TEMP_PCIE_SW_1

  • TEMP_Cedar_OSFP0

  • TEMP_Cedar_OSFP1

  • TEMP_Cedar_OSFP2

  • TEMP_Cedar_OSFP3

  • TEMP_PCIE_CX7_1

  • TEMP_PCIE_CX7_2

  • TEMP_CX7_QSFP0

  • TEMP_CX7_QSFP1

  • TEMP_CX7_QSFP2

  • TEMP_CX7_QSFP3

  • TEMP_Intel_NIC

  • TEMP_NIC_QSFP0

  • TEMP_NIC_QSFP1

解决方法#

再次轮询传感器可以解决此问题。