版本 1.1.3#

亮点#

  • 新增支持

    • 支持 Gen5 NVME 驱动器。

    • U.2 驱动器温度传感器修复。

    • 更新的电源固件。

    • 包含最新的 GPU 托架固件。

    • 包含最新的网络(集群和存储)卡固件。

    • 新增对保护 KCS 的支持。

  • nvfwupd 命令已更新,包含以下增强功能

    • 支持缩写的固件更新软件包名称。

    • 增强了 show_update_progress 输出,为 Redfish 提供完整的状态报告。

    • 支持自定义日志文件路径。

    • 如果任何更新失败或工具失败,命令将以错误代码 1 退出。

BMC 修复#

  • 修复了 NVMe 驱动器的 SEL 日志可能填满的问题。

  • 修复了 BMC 重启后 HMC 可能在 BMC 中不可见的低概率事件。

  • 增加了控制主机 IPMI 可见性的能力(允许全部、限制命令、隐藏)。

  • 通过 Redfish 实现 CPU 和 GPU 能量遥测的更高分辨率。

  • 提高了 Redfish 清单的可靠性。

  • 提高了遥测收集的整体稳定性,并处理无效/缺失值。

  • WebUI 的常规改进。

固件软件包详细信息#

此固件版本支持以下硬件

  • NVIDIA DGX H100

此固件版本支持以下操作系统

  • NVIDIA DGX OS 6.1、6.0.11 及更高版本

  • 适用于 EL9.2、23.12 和 23.08 的 NVIDIA DGX 软件

  • 适用于 EL8 23.08 的 NVIDIA DGX 软件

有关操作系统的更多信息,请参阅 NVIDIA Base OS 文档。

您可以从 NVIDIA 企业支持门户下载固件软件包,网址为 https://enterprise-support.nvidia.com/s/

下载两个固件软件包文件

组件

示例文件名

组合存档

DGXH100_1.1.3.tar

组合存档包括系统组件的固件、GPU 托架的固件和 nvfwupd 可执行文件。

主板托架

nvfw_DGXH100_231206.1.0.fwpkg

GPU 托架

nvfw_HGX_DGXH100_231101.1.0.fwpkg

如果您是从 1.1.1 版本更新,则总更新时间约为

  • 使用顺序更新时,CPU 托架为 88 分钟。

  • 使用并行更新时,CPU 托架为 33 分钟。

  • 使用并行更新时,GPU 托架为 11 分钟。

下表显示了组件固件版本和更新时间细分信息。

组件
版本
更新时间
从 1.1.1 版本起
(分钟)

主机 BMC

24.01.05

有关更改列表,请参阅 DGX H100 系统 BMC 更改

25

主机 BMC EROT

04.0026

2

SBIOS EROT

04.0026

0

SBIOS

v1.01.03

有关更改列表,请参阅 DGX H100 系统 SBIOS 更改

7

主板 CPLD

0.2.1.8

18

中板 CPLD

0.2.1.1

14

PSU (Delta ECD16020137)

2.4
2.1
社区 2.2
PSU_0: 2
PSU_1: 2
PSU_2: 2
PSU_3: 2
PSU_4: 2
PSU_5: 2
Broadcom Gen5
PCIe 交换机
(PEX89072-B01)
交换机 0: v0.0.7
交换机 1: v1.0.7
交换机 0: 1
交换机 1: 1
Astera Labs Gen5 PCIe Retimer
(PT5161L)

v2.07.19

Retimer 0: 3
Retimer 1: 3

网络(集群)卡 - ConnectX-7

v28.39.1002

网络(存储)卡 - ConnectX-7

v28.39.1002

VBIOS (H100 80GB)

96.00.89.00.01

GPU 托架(总计):11

NVSwitch (GPU 托架)

96.10.4A.00.01

EROT (GPU 托架)

02.0150

HMC (GPU 托架)

HGX-22.10-1-rc57

FPGA (GPU 托架)

2.37

PCIe 交换机 (GPU 托架)

1.7.5F

Astera Labs Gen5 PCIe Retimer (GPU 托架)
(PT5161L)

2.07.19

Intel 10G 以太网

v3.60

Intel 50G 以太网

v2.5

M.2 NVMe
(Samsung PM9A3)

GDC7502Q

M.2 NVMe
(Micron 7450)

E2MU200

U.2 Kioxia CM6

1.0.7

U.2 三星
(EVT2 PM1733)

MPK95B5Q

U.2 三星
(Gen5 PM1743)

OPPA3B5Q

FRU

0.6

TPM

v15.21

固件更新程序#

请参阅 固件更新步骤