DGX H100/H200 系统固件更新指南 版本 24.09.1#

注意

从本版本开始,DGX H100/H200 文档的版本方案已更改为 5 位版本。对于新版本,前两位数字是当前年份,后两位数字是月份,最后一位数字是构建号;例如,版本 24.09.1 是 2024 年 9 月发布的第一个构建版本。

亮点#

新增支持#

  • 引入对 NVIDIA DGX H200 系统的支持。

  • 启用 3 + 3 功率限制功能,以便在配电单元故障时提供持续电源,但性能水平会降低。

  • 添加 Redfish API 支持,用于创建、修改和删除电源策略。

  • 支持使用 Web UI 部署固件更新。

  • Redfish 禁用主机接口:使 redfish 功能从 BIOS 到 BMC 保持正常,但阻止从 OS 到 BMC 的直接路径。

  • 添加在已配置的证书链中指定中间证书颁发机构的功能。

  • 包含 GPU 托架、网络和 NVMe 驱动器的更新固件。

BMC 修复#

  • 修复了升级后 BMC 配置可能重置的问题。

  • 包含其他 Redfish 指标报告。

  • 修复了 SNMP、syslog 和 rsyslog 问题。

  • 为配置保存和恢复过程期间加密用户/密码文件添加了每个 BMC AES 密钥。

  • 修复了 LDAP/AD 设置中的无效域问题。

  • 增强了 Redfish 诊断。

  • Redfish API 和 IPMI 的通用性能改进。

  • 添加了对 ConnectX-7 温度传感器的支持。

  • 提高了能量计数器的分辨率。

  • 增强了远程媒体,支持端口号和域名。

  • Web UI 的通用改进。

SBIOS 修复#

  • 在运行时遇到不可纠正错误的 DIMM 将在下次启动时被映射出去。

  • 公开了 C1AutoDemotionC1AutoUnDemotionC6Enable 设置选项。

  • 将 CPU 设置选项页面移动到设置 UI 中的“高级”页面下。

  • 添加了一个设置选项,用于限制通过 IPMI 的主机访问。

  • 提供了 NvramVarsProtectionInOs 设置选项,以防止 OS 在运行时更改 NVRAM。

  • 实施了不可纠正错误率限制,在错误泛滥和报告 MLC(中级缓存)黄色状态的核心上禁用了 CSMI(可纠正系统管理中断),以及在 ANF(咨询性非致命错误)阈值被超过时进行 SEL 日志记录。

  • SncEn 默认设置更改为 disable

nvfwupd 命令更新#

  • 增强了 DGX 平台的自动服务器类型检测。

  • 不支持 activate_fw 命令。

固件包详细信息#

此固件版本支持以下系统

  • NVIDIA DGX H100

  • NVIDIA DGX H200

此固件版本支持以下操作系统

  • NVIDIA DGX OS 6.2.1、6.1、6.0.11 及更高版本

  • NVIDIA DGX Software EL9-24.06、EL9-23.12 和 EL9-23.08

  • NVIDIA DGX Software EL8-24.07、EL8-24.01 和 EL8-23.08

有关操作系统的更多信息,请参阅 NVIDIA Base OS 文档。

您可以从 NVIDIA 企业支持门户 下载固件包。

下表显示了固件包文件

组件

示例文件名

组合存档

DGXH100_H200_24.09.1.tar

组合存档包括系统组件的固件和 GPU 托架的固件。

  • 主板托架包

  • GPU 托架包

  • nvfw_DGX_240918.1.0.fwpkg

  • nvfw_HGX_DGXH100-H200x8_240603.1.0.fwpkg

如果您从版本 1.1.3 更新,则总更新时间约为

  • CPU 托架使用顺序更新为 92 分钟。

  • CPU 托架使用并行更新为 34 分钟。

  • GPU 托架使用并行更新为 12 分钟。

下表显示了组件固件版本和更新时间细分的信息。

组件
版本
更新时间
从 1.1.3
(分钟)

主机 BMC

24.09.17

有关更改列表,请参阅 DGX H100/H200 系统的 BMC 更改

25

主机 BMC ERoT

04.0052

2

SBIOS ERoT

04.0052

2

SBIOS

1.05.03

有关更改列表,请参阅 DGX H100/H200 系统的 SBIOS 更改

7

主板 CPLD

0.2.1.8

19

中板 CPLD

0.2.1.1

13

PSU (Delta ECD16020137)

0204
次要 0201
社区 0203
PSU_0:2.75
PSU_1:2.75
PSU_2:2.75
PSU_3:2.75
PSU_4:2.75
PSU_5:2.75
Broadcom Gen5
PCIe 交换机
(PEX89072-B01)
交换机 0:0.0.7
交换机 1:1.0.7
交换机 0:1
交换机 1:1
Astera Labs Gen5 PCIe Retimer
(PT5161L)

2.07.19

Retimer 0:3
Retimer 1:2.5

网络(集群)卡 - ConnectX-7

28.39.3560

网络(存储)卡 - ConnectX-7

28.39.3560

网卡 - BlueField-3

32.40.1000

  • VBIOS (H100 80GB)

  • VBIOS (H200 141GB)

  • 96.00.A5.00.01

  • 96.00.A5.00.03

GPU 托架(总计):12

NVSwitch (GPU 托架)

96.10.57.00.01

ERoT (GPU 托架)

02.0182

HMC (GPU 托架)

HGX-22.10-1-rc67

FPGA (GPU 托架)

2.53

PCIe 交换机 (GPU 托架)

1.9.5F

Astera Labs Gen5 PCIe Retimer (GPU 托架)
(PT5161L)

2.7.20

Intel 10G 以太网

v3.60

Intel 以太网网络适配器
(E810-C-Q2)

v4.50

M.2 NVMe
(Samsung PM9A3)

GDC7502Q

M.2 NVMe
(Micron 7450)

E2MU200

U.2 Kioxia Gen5 CM7

1UET7104

U.2 Samsung
(EVT2 PM1733)

MPK95B5Q

U.2 Samsung
(Gen5 PM1743)

OPPA4B5Q

FRU

0.6

TPM

v15.21

固件更新程序#

请参阅 固件更新步骤