关于固件更新#
本主题概述了 NVIDIA DGX™ B200 系统上的固件更新。
可更新固件的组件#
NVIDIA DGX™ B200 系统有多个可更新固件的组件。部分组件位于系统中的以下两个托盘上
主板托盘具有组件,例如 CPU、PCH、BMC,如下图所示
GPU 托盘具有组件,例如 GPU、NVSwitch、HMC,如下图所示
您可以使用 Redfish API 通过带外 (OOB) 方式或通过使用命令行界面 (CLI) 命令从主机操作系统更新 NVIDIA DGX B200 系统组件上的固件。
固件更新先决条件#
您可以从 NVIDIA 企业支持门户 下载固件软件包。
您必须知道 BMC IP 地址、用户名和密码。本文档中的示例命令显示
admin
作为用户名和密码。您必须拥有
nvfwupd
可执行文件或知道如何使用 Redfish API。
固件更新方法#
本文档中的大多数示例命令演示了如何使用 nvfwupd
命令更新固件。您可以从 NVIDIA 企业支持门户 下载可执行文件。
有关该命令的更多信息,请参阅 关于 nvfwupd 命令。
为了获得更新固件的最佳实践,请按照 固件更新步骤 中的说明进行操作。
您可以交互式运行 nvfwupd
命令来更新系统。本文档中的大多数命令示例都展示了这种交互式方法。如果您有多个系统要更新,您可以创建一个 JSON 文件来标识要更新的系统。有关更多信息,请参阅 平台无关的固件更新。
除了 nvfwupd
命令之外,另一种更新固件的方法是使用 Redfish API。BMC 网络接口通过 Redfish API 提供远程管理。
当您使用 Redfish API 时,更新固件的已知问题和固件更新步骤仍然适用。
有关更多信息和示例命令,请参阅 NVIDIA DGX B200 系统用户指南 中的 Redfish API 支持。示例命令演示了如何使用 curl
命令更新固件。
固件更新激活#
固件更新后,您必须执行以下一项或多项任务来激活固件更新,具体取决于要更新的组件
BMC 组件
通过运行以下命令重置 BMC
sudo ipmitool mc reset cold
PCIe 交换机、PCIe Retimer、BIOS 和 HGX(GPU 托盘)组件
使用以下命令对系统执行冷复位
sudo ipmitool chassis power cycle
EROT 和 CPLD 组件
通过拔下所有电源线,然后手动或通过外部 PDU 设备重新连接电源线,对系统执行交流电源循环。
注意
交流电源循环将激活所有已更新组件的固件。