DGX H100/H200 系统固件更新指南 版本 24.09.1#
注意
从本版本开始,DGX H100/H200 文档的版本方案已更改为 5 位版本。对于新版本,前两位数字是当前年份,后两位数字是月份,最后一位数字是构建号;例如,版本 24.09.1 是 2024 年 9 月发布的第一个构建版本。
亮点#
新增支持#
引入对 NVIDIA DGX H200 系统的支持。
启用 3 + 3 功率限制功能,以便在配电单元故障时提供持续电源,但性能水平会降低。
添加 Redfish API 支持,用于创建、修改和删除电源策略。
支持使用 Web UI 部署固件更新。
Redfish 禁用主机接口:使 redfish 功能从 BIOS 到 BMC 保持正常,但阻止从 OS 到 BMC 的直接路径。
添加在已配置的证书链中指定中间证书颁发机构的功能。
包含 GPU 托架、网络和 NVMe 驱动器的更新固件。
BMC 修复#
修复了升级后 BMC 配置可能重置的问题。
包含其他 Redfish 指标报告。
修复了 SNMP、syslog 和 rsyslog 问题。
为配置保存和恢复过程期间加密用户/密码文件添加了每个 BMC AES 密钥。
修复了 LDAP/AD 设置中的无效域问题。
增强了 Redfish 诊断。
Redfish API 和 IPMI 的通用性能改进。
添加了对 ConnectX-7 温度传感器的支持。
提高了能量计数器的分辨率。
增强了远程媒体,支持端口号和域名。
Web UI 的通用改进。
SBIOS 修复#
在运行时遇到不可纠正错误的 DIMM 将在下次启动时被映射出去。
公开了
C1AutoDemotion
、C1AutoUnDemotion
和C6Enable
设置选项。将 CPU 设置选项页面移动到设置 UI 中的“高级”页面下。
添加了一个设置选项,用于限制通过 IPMI 的主机访问。
提供了
NvramVarsProtectionInOs
设置选项,以防止 OS 在运行时更改 NVRAM。实施了不可纠正错误率限制,在错误泛滥和报告 MLC(中级缓存)黄色状态的核心上禁用了 CSMI(可纠正系统管理中断),以及在 ANF(咨询性非致命错误)阈值被超过时进行 SEL 日志记录。
将
SncEn
默认设置更改为disable
。
nvfwupd 命令更新#
增强了 DGX 平台的自动服务器类型检测。
不支持
activate_fw
命令。
固件包详细信息#
此固件版本支持以下系统
NVIDIA DGX H100
NVIDIA DGX H200
此固件版本支持以下操作系统
NVIDIA DGX OS 6.2.1、6.1、6.0.11 及更高版本
NVIDIA DGX Software EL9-24.06、EL9-23.12 和 EL9-23.08
NVIDIA DGX Software EL8-24.07、EL8-24.01 和 EL8-23.08
有关操作系统的更多信息,请参阅 NVIDIA Base OS 文档。
您可以从 NVIDIA 企业支持门户 下载固件包。
下表显示了固件包文件
组件 |
示例文件名 |
---|---|
组合存档 |
组合存档包括系统组件的固件和 GPU 托架的固件。 |
|
|
如果您从版本 1.1.3 更新,则总更新时间约为
CPU 托架使用顺序更新为 92 分钟。
CPU 托架使用并行更新为 34 分钟。
GPU 托架使用并行更新为 12 分钟。
下表显示了组件固件版本和更新时间细分的信息。
组件
|
版本
|
更新时间
从 1.1.3
(分钟)
|
---|---|---|
主机 BMC |
24.09.17 有关更改列表,请参阅 DGX H100/H200 系统的 BMC 更改。 |
25 |
主机 BMC ERoT |
04.0052 |
2 |
SBIOS ERoT |
04.0052 |
2 |
SBIOS |
1.05.03 有关更改列表,请参阅 DGX H100/H200 系统的 SBIOS 更改。 |
7 |
主板 CPLD |
0.2.1.8 |
19 |
中板 CPLD |
0.2.1.1 |
13 |
PSU (Delta ECD16020137) |
主 0204
次要 0201
社区 0203
|
PSU_0:2.75
PSU_1:2.75
PSU_2:2.75
PSU_3:2.75
PSU_4:2.75
PSU_5:2.75
|
Broadcom Gen5
PCIe 交换机
(PEX89072-B01)
|
交换机 0:0.0.7
交换机 1:1.0.7
|
交换机 0:1
交换机 1:1
|
Astera Labs Gen5 PCIe Retimer
(PT5161L)
|
2.07.19 |
Retimer 0:3
Retimer 1:2.5
|
网络(集群)卡 - ConnectX-7 |
28.39.3560 |
|
网络(存储)卡 - ConnectX-7 |
28.39.3560 |
|
网卡 - BlueField-3 |
32.40.1000 |
|
|
|
GPU 托架(总计):12 |
NVSwitch (GPU 托架) |
96.10.57.00.01 |
|
ERoT (GPU 托架) |
02.0182 |
|
HMC (GPU 托架) |
HGX-22.10-1-rc67 |
|
FPGA (GPU 托架) |
2.53 |
|
PCIe 交换机 (GPU 托架) |
1.9.5F |
|
Astera Labs Gen5 PCIe Retimer (GPU 托架)
(PT5161L)
|
2.7.20 |
|
Intel 10G 以太网 |
v3.60 |
|
Intel 以太网网络适配器
(E810-C-Q2)
|
v4.50 |
|
M.2 NVMe
(Samsung PM9A3)
|
GDC7502Q |
|
M.2 NVMe
(Micron 7450)
|
E2MU200 |
|
U.2 Kioxia Gen5 CM7 |
1UET7104 |
|
U.2 Samsung
(EVT2 PM1733)
|
MPK95B5Q |
|
U.2 Samsung
(Gen5 PM1743)
|
OPPA4B5Q |
|
FRU |
0.6 |
|
TPM |
v15.21 |
固件更新程序#
请参阅 固件更新步骤。