已知问题#

功能问题#

  • 您无法更新 DGX B200 GPU 托架中各个组件的固件。例如,您不能仅单独更新 GPU 的固件。您必须通过刷写整个 DGX B200 GPU 托架来更新固件。

  • 固件下载不是自动的。您必须从 NVIDIA 企业支持门户 手动下载固件。

VBIOS 不兼容问题#

问题#

直接从早于 97.00.5E.00.XX 的版本更新到晚于 97.00.7C.00.XX 的版本可能会失败。使用 Redfish 方法时,您可能会看到类似于以下的错误

{
  "@odata.type": "#MessageRegistry.v1_4_1.MessageRegistry",
  "Message": "Verification of image '97.00.7C.00.05' at HGX_FW_GPU_SXM_4' failed.
  "MessageArgs": [
        "97.00.7C.00.05",
        "HGX_FW_GPU_SXM_4"
      ],
  "MessageID": "Update.1.0.VerificationFailed",
  "Resolution": "None.".
  "Severity": "Critical"
}

说明#

早于 97.00.5E.00.XX 的版本和晚于 97.00.7C.00.XX 的版本中的 VBIOS 固件数据结构不兼容。

解决方法#

如果您的当前 VBIOS 版本是

  • 97.00.5E.00.XX 或更高版本

    直接更新到最新的 VBIOS 版本。

  • 早于 97.00.5E.00.XX

    请按照以下步骤操作

    1. 更新到 97.00.5E.00.XX 和 97.00.7C.00.XX 之间的版本。

    2. 然后,更新到最新版本。

固件更新期间的误导性消息#

问题#

在 ConnectX-7 固件更新过程中,应用更新完成后,消息建议需要重新启动:To load new FW, run mlxfwreset or reboot machine.Please reboot machine to load new configurations. 但是,对于 ConnectX-7 固件版本 28.36.1010 及更高版本,重新启动系统不会正确加载固件更新或新配置。

解决方法#

为了成功加载固件更新和新配置,请对系统执行 AC 电源循环,而不是重新启动。

固件清单在启动期间可能无效#

问题#

在极少数情况下,轮询 BMC Redfish API 的固件清单端点可能会报告 HGX_0 组件的不准确的固件版本。

解决方法#

在系统完成启动序列后查询固件清单,以检索当前的固件清单。

AC 电源循环后 BMC 启动缓慢#

问题#

在 AC 电源循环后,BMC 可能需要大约 10 分钟才能用于通信。BMC 通常在三分钟内可用。

解决方法#

没有可用的解决方法。

温度传感器可能报告无读数#

问题#

以下传感器可能报告 No Reading 而不是温度值

  • TEMP_PSU4

  • TEMP_PSU5

  • PWR_PSU5

  • SPD_FAN_PSU5_R

  • SPD_FAN_PSU5_R

  • STATUS_PSU0

  • STATUS_PSU1

  • STATUS_PSU2

  • STATUS_PSU3

  • STATUS_PSU4

  • STATUS_PSU5

  • STATUS_HMC

  • TEMP_PCIE_SW_1

  • TEMP_Cedar_OSFP0

  • TEMP_Cedar_OSFP1

  • TEMP_Cedar_OSFP2

  • TEMP_Cedar_OSFP3

  • TEMP_PCIE_CX7_1

  • TEMP_PCIE_CX7_2

  • TEMP_CX7_QSFP0

  • TEMP_CX7_QSFP1

  • TEMP_CX7_QSFP2

  • TEMP_CX7_QSFP3

  • TEMP_Intel_NIC

  • TEMP_NIC_QSFP0

  • TEMP_NIC_QSFP1

解决方法#

再次轮询传感器可以解决此问题。