DGX B200 固件更新指南#

NVIDIA DGX B200 固件更新指南》也提供 PDF 版本。

关于固件更新#

本主题概述了 NVIDIA DGX™ B200 系统上的固件更新。

可更新固件的组件#

NVIDIA DGX™ B200 系统有多个可更新固件的组件。其中一些组件位于系统中的以下两个托盘上

  • 主板托盘包含组件,例如 CPU、PCH、BMC,如下图所示

    _images/dgx-b200-mb-tray-comp.png
  • GPU 托盘包含组件,例如 GPU、NVSwitch、HMC,如下图所示

    _images/dgx-b200-gpu-tray.png

您可以使用 Redfish API 以带外 (OOB) 方式更新 NVIDIA DGX B200 系统组件上的固件,也可以从主机操作系统使用命令行界面 (CLI) 命令进行更新。

固件更新先决条件#

  • 您可以从 NVIDIA 企业支持门户下载固件软件包。

  • 您必须知道 BMC IP 地址、用户名和密码。本文档中的示例命令显示用户名和密码均为 admin

  • 您必须拥有 nvfwupd 可执行文件,或者知道如何使用 Redfish API。

固件更新方法#

本文档中的大多数示例命令都展示了如何使用 nvfwupd 命令更新固件。您可以从 NVIDIA 企业支持门户下载可执行文件。

您可以交互式运行 nvfwupd 命令以更新系统。本文档中的大多数命令示例都展示了这种交互式方法。如果您有多个系统要更新,则可以创建一个 JSON 文件来标识要更新的系统。有关更多信息,请参阅平台无关的固件更新

nvfwupd 命令的替代方法是使用 Redfish API 更新固件。BMC 网络接口通过 Redfish API 提供远程管理。

当您使用 Redfish API 时,更新固件的已知问题固件更新步骤仍然适用。

有关更多信息和示例命令,请参阅《NVIDIA DGX B200 系统用户指南》中的“Redfish API 支持”。示例命令展示了如何使用 curl 命令更新固件。

固件更新激活#

固件更新后,您必须执行以下一项或多项任务来激活固件更新,具体取决于要更新的组件

  • BMC 组件

    通过运行以下命令重置 BMC

    sudo ipmitool mc reset cold
    
  • PCIe 交换机、PCIe 重定时器、BIOS 和 HGX(GPU 托盘)组件

    使用以下命令对系统执行冷重置

    sudo ipmitool chassis power cycle
    
  • EROT 和 CPLD 组件

    通过拔下所有电源,然后手动或通过外部 PDU 设备重新连接电源,对系统执行交流电源循环。

    注意

    交流电源循环将激活所有已更新组件的固件。