发行说明#

本节提供适用于 Red Hat Enterprise Linux 9 和 Rocky Linux 9 的 NVIDIA DGX™ 软件堆栈的可用版本和升级的详细信息。

当前软件版本#

下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。

当前软件版本(上次更新于 2024 年 12 月 9 日)#

组件

版本

附加信息

GPU 驱动程序

550.127.08

GPU 驱动程序

535.216.03

CUDA Toolkit

12.4 Update 1

R550: 12.4 Update 1 下载

CUDA Toolkit

12.2 Update 2

R535: 12.2 Update 2 下载

MLNX_OFED

24.10-1.1.4.0 LTS

24.10-1.1.4.0 下载

DOCA OFED

2.9.1

2.9.1 下载

Inbox OFED

39.0-1

仅适用于 DGX OS 6。

NCCL

2.23.4

cuDNN

9.6.0

DCGM

3.3.9

GPUDirect Storage (GDS)

  • 适用于 CUDA Toolkit 12.6 Update 2 的 1.11.1

  • 适用于 CUDA Toolkit 12.6 的 1.11

  • 适用于 CUDA Toolkit 12.5 的 1.10

  • 适用于 CUDA Toolkit 12.4 的 1.9

  • 适用于 CUDA Toolkit 12.3 的 1.8

  • 适用于 CUDA Toolkit 12.2 的 1.7

NVIDIA Container Toolkit

1.16.2

NVIDIA Container Toolkit 包括以下软件包

  • nvidia-container-toolkit: 1.16.2

  • libnvidia-container-tools: 1.16.2

  • libnvidia-container1: 1.16.2

nvidia-peer-memory

1.3

注意

  • CUDA Toolkit 默认仅为 DGX 工作站安装,对于 DGX 服务器是可选的。有关驱动程序兼容性信息,请参阅 CUDA 发行说明

  • 有关 CUDA Toolkit 次要版本兼容性和最低要求的驱动程序版本,请参阅 CUDA 兼容性

下表提供了 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.9.1 以及 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.10-1.1.4.0 LTS 的匹配固件版本信息。有关 MLNX_OFED 版本过渡的信息,请参阅 适配器软件 中的 MLNX_OFED 部分。

匹配的固件版本(上次更新于 2024 年 12 月 9 日)#
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
DGX A100
ConnectX-6
DGX A100
ConnectX-7
DGX H100/H200
ConnectX-7

CX-5: 16.35.4030

CX-4: 12.28.2006

20.43.2026

28.43.2026

28.43.2026

有关安装说明,请参阅

注意

有关相关网络组件的 LTS 软件版本的信息,请参阅 网络长期支持版本 页面。

最新版本#

重要

安装或更新到 DGX 软件也会将已安装的 Red Hat Enterprise Linux 9 发行版更新到最新版本。

如果您使用 NVIDIA MLNX_OFED,在安装或更新到 EL9-24.12 之前,请确保有 MLNX_OFED 软件包版本支持最新的 Red Hat Enterprise Linux 9 版本。

  • 要检查最新的 Red Hat Enterprise Linux 9 版本,请参阅 Red Hat 知识库文章 3078

  • 要检查 MLNX_OFED 软件包 OS 支持,请访问 Mellanox 并单击最新的 NVIDIA MLNX_OFED 软件版本。使用侧边菜单导航到 发行说明 > 通用支持 并查看支持的操作系统。

版本 EL9-24.12#

发布日期:2024 年 12 月 18 日

发行亮点#

合格软件栈#

下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。

组件

存储库中的最新版本

DGX 基础操作系统

EL9-24.12

操作系统

Red Hat Enterprise Linux 9.5 和 Rocky Linux 9.5

内核

5.14.0-503.15.1.el9_5.x86_64

GPU 驱动程序

CUDA Toolkit

NCCL

2.23.4

cuDNN

9.5.1

DCGM

3.3.8

GPU Direct Storage

  • 1.9,适用于 CUDA 12.4

  • 1.7,适用于 CUDA 12.2

NVIDIA 系统管理 (NVSM)

24.06.05

Docker CE

27.3.1

NVIDIA Container Runtime

  • nvidia-container-toolkit: 1.16.2

  • libnvidia-container-tools: 1.16.2

  • libnvidia-container1: 1.16.2

MIG 配置工具

0.10.0

GDRCopy

2.4.3

DLFW(深度学习框架)

24.10

下表提供了 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.9.1 以及 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.10-1.1.4.0 的支持的操作系统和匹配的固件版本信息。

操作系统
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
DGX A100
ConnectX-6
DGX A100
ConnectX-7
DGX H100/H200
ConnectX-7
RHEL 9

CX-5: 16.35.4030

CX-4: 12.28.2006

20.43.2026

28.43.2026

28.43.2026

支持的 DGX 系统#

EL9-24.12 版本支持以下 DGX 系统

  • DGX H200 1,128 GB

  • DGX H100 640 GB

  • DGX A100 640 GB

  • DGX A100 320 GB

  • DGX A800 640 GB

  • DGX-2

  • DGX-1 32 GB

  • DGX Station A100 320 GB

  • DGX Station A100 160 GB

  • DGX Station A800 320 GB

  • DGX Station 32 GB

以前的版本#

版本 EL9-24.06#

发布日期:2024 年 7 月 11 日

发行亮点#

  • 增加对 Red Hat Enterprise Linux 9.4 和 Rocky 9.4 的支持。

  • 引入对 NVIDIA DOCA™ Host 软件包的支持,该软件包带有 doca-ofed 安装配置文件 v2.7.0

  • 包括对 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.04-0.6.6.0 的支持

  • 继续支持 DGX A100 系统的单端口 ConnectX-7 VPI 适配器卡。

  • 更新了 DGX 软件堆栈。

合格软件栈#

下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。

组件

存储库中的最新版本

DGX 基础操作系统

EL9-24.06

操作系统

Red Hat Enterprise Linux 9.4 和 Rocky Linux 9.4

内核

5.14.0-427.18.1.el9_4.x86_64

GPU 驱动程序

CUDA Toolkit

NCCL

2.21.5

cuDNN

9.1.1

DCGM

3.3.6

GPU Direct Storage

  • 1.9.1,适用于 CUDA 12.4

  • 1.7.2,适用于 CUDA 12.2

NVIDIA 系统管理 (NVSM)

24.03.03

Docker CE

26.1.3

NVIDIA Container Runtime

  • nvidia-container-toolkit: 1.15.0

  • libnvidia-container-tools: 1.15.0

  • libnvidia-container1: 1.15.0

MIG 配置工具

0.7.0

GDRCopy

2.4.1

DLFW(深度学习框架)

24.05

下表提供了 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.04-0.6.6.0 和 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.7.0 的支持的操作系统和匹配的固件版本信息。

操作系统
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
DGX A100
ConnectX-6
DGX A100
ConnectX-7
DGX H100
ConnectX-7
RHEL 9

CX-5: 16.35.3502

CX-4: 12.28.2006

20.41.1000

28.41.1000

28.41.1000

支持的 DGX 系统#

EL9-24.06 版本支持以下 DGX 系统

  • DGX H100

  • DGX A100 640 GB

  • DGX A100 320 GB

  • DGX A800 640 GB

  • DGX-2

  • DGX-1 32 GB

  • DGX Station A100 320 GB

  • DGX Station A100 160 GB

  • DGX Station A800 320 GB

  • DGX Station 32 GB

版本 EL9-23.12#

发布日期:2023 年 12 月 19 日

发行亮点#

  • 增加对 Red Hat Enterprise Linux 9.3 和 Rocky 9.3 的支持。

  • 继续支持 Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2。

  • 增加对 DGX A100 系统的单端口 ConnectX-7 VPI 适配器卡的支持。

  • 增加对 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) 23.10-1.1.9.0 版本的支持 - 长期支持 (LTS) 版本。

  • 继续支持 DGX H100。

合格软件栈#

下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。

组件

存储库中的最新版本

DGX 基础操作系统

EL9-23.12

操作系统

Red Hat Enterprise Linux 9.3 和 Rocky Linux 9.3

内核

5.14.0-362.8.1.el9_3

GPU 驱动程序和 CUDA Toolkit

CUDA Toolkit 12.2 和 GPU 驱动程序 535.129.03(默认)

NCCL

2.19.3

cuDNN

8.9.6

DCGM

3.3.0-002

GPU Direct Storage

1.7.2 或更高版本

NVIDIA 系统管理 (NVSM)

23.09.02

Docker-CE

24.0.7-1

NVIDIA Container Runtime

  • nvidia-docker2: 2.13.0-1

  • nvidia-container-toolkit(和基础版):1.14.3-1

  • libnvidia-container-tools: 1.14.3-1

  • libnvidia-container1: 1.14.3-1

MIG 配置工具

0.5.4-1

NGC CLI

3.17.0-1

DLFW(深度学习框架)

23.10

下表提供了 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) 版本 23.10-1.1.9.0 的支持的操作系统和匹配的固件版本信息。

操作系统
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
DGX A100
ConnectX-6
DGX A100
ConnectX-7
DGX H100
ConnectX-7
RHEL 9

CX-5: 16.35.3006

CX-4: 12.28.2006

20.39.1002

28.39.1002

28.39.1002

支持的 DGX 系统#

NVIDIA 已验证并测试了 EL9-23.12 与以下 DGX 系统的兼容性

  • DGX H100

  • DGX A100 640 GB

  • DGX A100 320 GB

  • DGX A800 640 GB

  • DGX-2

  • DGX-1 32 GB

  • DGX Station A100 320 GB

  • DGX Station A100 160 GB

  • DGX Station 32 GB

已解决的问题#

以下问题已在 EL9-23.12 版本中解决

错误 ID

问题

4108242

运行 joc 测试导致 GPU 驱动程序 R525.105.17 出现 unrecognized arguments: --local-rank 错误。

4386925

GPUDirect RDMA 带宽测试失败,并显示 Xid (PCI:0000:0f:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus 消息。

版本 EL9-23.08#

发行亮点#

  • 增加对 NVIDIA DGX H100 系统的支持。支持仅限于 Red Hat Enterprise Linux 9.1 版本。

  • 增加对 Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2 的支持。

合格软件栈#

下表提供了 EL9-23.08 及其已合格软件的版本信息

组件

存储库中的最新版本

Linux 发行版

Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2

对于 NVIDIA DGX H100 系统,仅支持 Red Hat Enterprise Linux 9.1。

GPU 驱动程序

535.86.10

CUDA Toolkit

12.2.0

NCCL

2.18.3

CuDNN

8.9.2.26

DCGM

3.1.8

MLNX OFED

  • ConnectX-7 与 DGX H100:5.9-0.5.6.0.125

  • ConnectX-7 与 DGX A100:5.4-3.7.5.0

  • ConnectX-6 与 DGX A100:5.8-3.0.7.0

  • ConnectX-5 和 ConnectX-4:5.8-3.0.7.0

MLNX FW

  • ConnectX-7 和 DGX H100:28.36.2050

  • ConnectX-7 和 DGX A100:28.34.4000

  • ConnectX-6 和 DGX A100:20.35.4000

  • ConnectX-5:16.35.3006

  • ConnectX-4:12.28.2006

GPU Direct Storage

1.7.2

NVIDIA 系统管理 (NVSM)

23.06.04

Docker Engine

23.0.4

NVIDIA Container Runtime

  • nvidia-docker2: 2.13.1-1

  • nvidia-container-toolkit(和基础版):1.13.1-1

  • libnvidia-container-tools: 1.13.1-1

  • libnvidia-container1: 1.13.1-1

MIG 配置工具

0.5.1

NGC CLI

3.17.0

DLFW(深度学习框架)

23.07

下表提供了 Mellanox OFED 的支持的操作系统和匹配的固件版本信息。

操作系统

DGX-1、DGX-2

ConnectX-4 或 ConnectX-5

DGX A100

ConnectX-6 (CX-6)

DGX A100

ConnectX-7 (CX-7)

DGX H100

ConnectX-7 (CX-7)

RHEL 8

5.8-3.0.7.0

  • CX-5: 16.35.3006

  • CX-4: 12.28.2006

  • RHEL 8.8

5.8-3.0.7.0

  • CX-6:20.35.3006

  • RHEL 8.8

5.4-3.7.5.0

  • CX-7:28.34.4000

  • RHEL 8.8

5.9-0.5.6.0.127

  • CX-7:28.36.2050

  • RHEL 8.7

RHEL 9

5.8-3.0.7.0

  • CX-5: 16.35.3006

  • CX-4: 12.28.2006

  • RHEL 9.2

5.8-3.0.7.0

  • CX-6:20.35.3006

  • RHEL 9.2

5.4-3.7.5.0

  • CX-7:28.34.4000

  • RHEL 9.2

5.9-0.5.6.0.127

  • CX-7:28.36.2050

  • RHEL 9.1

支持的 DGX 系统#

NVIDIA 已验证并测试了 EL9-23.08 与以下 DGX 系统的兼容性

  • NVIDIA DGX H100

  • NVIDIA DGX A100

  • NVIDIA DGX Station A100

  • NVIDIA DGX Station

  • NVIDIA DGX-2

  • NVIDIA DGX-1

版本 EL9-23.01#

Red Hat Enterprise Linux 9 的 DGX 软件堆栈的初始版本。

合格软件栈#

下表提供了 EL9-23.01 及其已合格软件的版本信息

组件

此版本中的版本

Linux 发行版

Red Hat Enterprise Linux 9.1 和 Rocky Linux 9.1

GPU 驱动程序

525.105.17

CUDA Toolkit

12.0

NCCL

2.18.1

CuDNN

8.9.1.23

DCGM

3.1.8

NVIDIA MLNX_OFED

5.8-2.0.3.0

NVIDIA ConnectX 固件

  • CX-4: 12.28.2006

  • CX-5:16.35.2000

  • CX-6:20.35.2000

NVIDIA 系统管理 (NVSM)

22.12.04

Docker Engine

23.0.4

NVIDIA Container Runtime

  • nvidia-docker2: 2.13.0-1

  • nvidia-container-toolkit(和基础版):1.13.1-1

  • libnvidia-container-tools: 1.13.1-1

  • libnvidia-container1: 1.13.1-1

MIG 配置工具

0.5.1

NGC CLI

3.17.0

DLFW(深度学习框架)

23.03

支持的 DGX 系统#

NVIDIA 已验证并测试了 EL9-23.01 与以下 DGX 系统的兼容性

  • DGX-1

  • DGX-2

  • DGX Station

  • DGX A100

  • DGX Station A100