已知问题#
功能问题#
您无法更新 DGX B200 GPU 托架中各个组件的固件。例如,您不能仅单独更新 GPU 的固件。您必须通过刷写整个 DGX B200 GPU 托架来更新固件。
固件下载不是自动的。您必须从 NVIDIA 企业支持门户 手动下载固件。
VBIOS 不兼容问题#
问题#
直接从早于 97.00.5E.00.XX 的版本更新到晚于 97.00.7C.00.XX 的版本可能会失败。使用 Redfish 方法时,您可能会看到类似于以下的错误
{
"@odata.type": "#MessageRegistry.v1_4_1.MessageRegistry",
"Message": "Verification of image '97.00.7C.00.05' at HGX_FW_GPU_SXM_4' failed.
"MessageArgs": [
"97.00.7C.00.05",
"HGX_FW_GPU_SXM_4"
],
"MessageID": "Update.1.0.VerificationFailed",
"Resolution": "None.".
"Severity": "Critical"
}
说明#
早于 97.00.5E.00.XX 的版本和晚于 97.00.7C.00.XX 的版本中的 VBIOS 固件数据结构不兼容。
解决方法#
如果您的当前 VBIOS 版本是
97.00.5E.00.XX 或更高版本
直接更新到最新的 VBIOS 版本。
早于 97.00.5E.00.XX
请按照以下步骤操作
更新到 97.00.5E.00.XX 和 97.00.7C.00.XX 之间的版本。
然后,更新到最新版本。
固件更新期间的误导性消息#
问题#
在 ConnectX-7 固件更新过程中,应用更新完成后,消息建议需要重新启动:To load new FW, run mlxfwreset or reboot machine.
和 Please reboot machine to load new configurations.
但是,对于 ConnectX-7 固件版本 28.36.1010 及更高版本,重新启动系统不会正确加载固件更新或新配置。
解决方法#
为了成功加载固件更新和新配置,请对系统执行 AC 电源循环,而不是重新启动。
固件清单在启动期间可能无效#
问题#
在极少数情况下,轮询 BMC Redfish API 的固件清单端点可能会报告 HGX_0 组件的不准确的固件版本。
解决方法#
在系统完成启动序列后查询固件清单,以检索当前的固件清单。
AC 电源循环后 BMC 启动缓慢#
问题#
在 AC 电源循环后,BMC 可能需要大约 10 分钟才能用于通信。BMC 通常在三分钟内可用。
解决方法#
没有可用的解决方法。
温度传感器可能报告无读数#
问题#
以下传感器可能报告 No Reading
而不是温度值
TEMP_PSU4
TEMP_PSU5
PWR_PSU5
SPD_FAN_PSU5_R
SPD_FAN_PSU5_R
STATUS_PSU0
STATUS_PSU1
STATUS_PSU2
STATUS_PSU3
STATUS_PSU4
STATUS_PSU5
STATUS_HMC
TEMP_PCIE_SW_1
TEMP_Cedar_OSFP0
TEMP_Cedar_OSFP1
TEMP_Cedar_OSFP2
TEMP_Cedar_OSFP3
TEMP_PCIE_CX7_1
TEMP_PCIE_CX7_2
TEMP_CX7_QSFP0
TEMP_CX7_QSFP1
TEMP_CX7_QSFP2
TEMP_CX7_QSFP3
TEMP_Intel_NIC
TEMP_NIC_QSFP0
TEMP_NIC_QSFP1
解决方法#
再次轮询传感器可以解决此问题。