发行说明#
本节提供适用于 Red Hat Enterprise Linux 9 和 Rocky Linux 9 的 NVIDIA DGX™ 软件堆栈的可用版本和升级的详细信息。
当前软件版本#
下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。
组件 |
版本 |
附加信息 |
---|---|---|
GPU 驱动程序 |
||
GPU 驱动程序 |
||
CUDA Toolkit |
R550: 12.4 Update 1 下载 |
|
CUDA Toolkit |
R535: 12.2 Update 2 下载 |
|
MLNX_OFED |
||
DOCA OFED |
||
Inbox OFED |
39.0-1 |
仅适用于 DGX OS 6。 |
NCCL |
||
cuDNN |
||
DCGM |
||
GPUDirect Storage (GDS) |
|
|
NVIDIA Container Toolkit |
NVIDIA Container Toolkit 包括以下软件包
|
|
nvidia-peer-memory |
1.3 |
注意
下表提供了 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.9.1 以及 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.10-1.1.4.0 LTS 的匹配固件版本信息。有关 MLNX_OFED 版本过渡的信息,请参阅 适配器软件 中的 MLNX_OFED 部分。
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
|
DGX A100
ConnectX-6
|
DGX A100
ConnectX-7
|
DGX H100/H200
ConnectX-7
|
---|---|---|---|
CX-5: 16.35.4030 CX-4: 12.28.2006 |
有关安装说明,请参阅
NVIDIA DOCA-OFED: 安装 NVIDIA DOCA-OFED
NVIDIA MLNX_OFED: 安装 NVIDIA MLNX_OFED
ConnectX®-7 适配器卡:安装 ConnectX-7 固件
ConnectX®-6 适配器卡:固件下载
注意
有关相关网络组件的 LTS 软件版本的信息,请参阅 网络长期支持版本 页面。
最新版本#
重要
安装或更新到 DGX 软件也会将已安装的 Red Hat Enterprise Linux 9 发行版更新到最新版本。
如果您使用 NVIDIA MLNX_OFED,在安装或更新到 EL9-24.12 之前,请确保有 MLNX_OFED 软件包版本支持最新的 Red Hat Enterprise Linux 9 版本。
要检查最新的 Red Hat Enterprise Linux 9 版本,请参阅 Red Hat 知识库文章 3078。
要检查 MLNX_OFED 软件包 OS 支持,请访问 Mellanox 并单击最新的 NVIDIA MLNX_OFED 软件版本。使用侧边菜单导航到 发行说明 > 通用支持 并查看支持的操作系统。
版本 EL9-24.12#
发布日期:2024 年 12 月 18 日
发行亮点#
增加对 Red Hat Enterprise Linux 9.5 和 Rocky 9.5 的支持。
引入对 NVIDIA DGX™ H200 系统的支持。
不支持 NVIDIA DGX™ H800 系统。
更新 GPU 驱动程序
版本 550.127.08,带有 CUDA Toolkit 12.4 Update 1
版本 535.216.03,带有 CUDA Toolkit 12.2 Update 2
增加对 DGX H100 和 H200 系统上 NIC 模式下 NVIDIA® BlueField®-3 DPU 的支持。
包括对 NVIDIA DOCA™ Host 软件包的支持,该软件包带有 doca-ofed 安装配置文件 v2.9.1(提供 MLNX_OFED 功能)。
更新 DGX 软件堆栈。
合格软件栈#
下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。
组件 |
存储库中的最新版本 |
---|---|
DGX 基础操作系统 |
EL9-24.12 |
操作系统 |
Red Hat Enterprise Linux 9.5 和 Rocky Linux 9.5 |
内核 |
5.14.0-503.15.1.el9_5.x86_64 |
GPU 驱动程序 |
|
CUDA Toolkit |
|
NCCL |
|
cuDNN |
|
DCGM |
|
GPU Direct Storage |
|
NVIDIA 系统管理 (NVSM) |
|
Docker CE |
|
NVIDIA Container Runtime |
|
MIG 配置工具 |
|
GDRCopy |
|
DLFW(深度学习框架) |
下表提供了 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.9.1 以及 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.10-1.1.4.0 的支持的操作系统和匹配的固件版本信息。
操作系统
|
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
|
DGX A100
ConnectX-6
|
DGX A100
ConnectX-7
|
DGX H100/H200
ConnectX-7
|
---|---|---|---|---|
RHEL 9
|
CX-5: 16.35.4030 CX-4: 12.28.2006 |
支持的 DGX 系统#
EL9-24.12 版本支持以下 DGX 系统
DGX H200 1,128 GB
DGX H100 640 GB
DGX A100 640 GB
DGX A100 320 GB
DGX A800 640 GB
DGX-2
DGX-1 32 GB
DGX Station A100 320 GB
DGX Station A100 160 GB
DGX Station A800 320 GB
DGX Station 32 GB
以前的版本#
版本 EL9-24.06#
发布日期:2024 年 7 月 11 日
发行亮点#
增加对 Red Hat Enterprise Linux 9.4 和 Rocky 9.4 的支持。
引入对 NVIDIA DOCA™ Host 软件包的支持,该软件包带有 doca-ofed 安装配置文件 v2.7.0。
包括对 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.04-0.6.6.0 的支持
继续支持 DGX A100 系统的单端口 ConnectX-7 VPI 适配器卡。
更新了 DGX 软件堆栈。
合格软件栈#
下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。
组件 |
存储库中的最新版本 |
---|---|
DGX 基础操作系统 |
EL9-24.06 |
操作系统 |
Red Hat Enterprise Linux 9.4 和 Rocky Linux 9.4 |
内核 |
5.14.0-427.18.1.el9_4.x86_64 |
GPU 驱动程序 |
|
CUDA Toolkit |
|
NCCL |
|
cuDNN |
|
DCGM |
|
GPU Direct Storage |
|
NVIDIA 系统管理 (NVSM) |
|
Docker CE |
|
NVIDIA Container Runtime |
|
MIG 配置工具 |
|
GDRCopy |
|
DLFW(深度学习框架) |
下表提供了 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) v24.04-0.6.6.0 和 NVIDIA DOCA™ Host 软件包与 doca-ofed 安装配置文件 v2.7.0 的支持的操作系统和匹配的固件版本信息。
操作系统
|
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
|
DGX A100
ConnectX-6
|
DGX A100
ConnectX-7
|
DGX H100
ConnectX-7
|
---|---|---|---|---|
RHEL 9
|
CX-5: 16.35.3502 CX-4: 12.28.2006 |
20.41.1000 |
28.41.1000 |
28.41.1000 |
支持的 DGX 系统#
EL9-24.06 版本支持以下 DGX 系统
DGX H100
DGX A100 640 GB
DGX A100 320 GB
DGX A800 640 GB
DGX-2
DGX-1 32 GB
DGX Station A100 320 GB
DGX Station A100 160 GB
DGX Station A800 320 GB
DGX Station 32 GB
版本 EL9-23.12#
发布日期:2023 年 12 月 19 日
发行亮点#
增加对 Red Hat Enterprise Linux 9.3 和 Rocky 9.3 的支持。
继续支持 Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2。
增加对 DGX A100 系统的单端口 ConnectX-7 VPI 适配器卡的支持。
增加对 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) 23.10-1.1.9.0 版本的支持 - 长期支持 (LTS) 版本。
继续支持 DGX H100。
合格软件栈#
下表显示了 NVIDIA 存储库中为 NVIDIA DGX 软件堆栈提供的软件包的当前版本信息。
组件 |
存储库中的最新版本 |
---|---|
DGX 基础操作系统 |
EL9-23.12 |
操作系统 |
Red Hat Enterprise Linux 9.3 和 Rocky Linux 9.3 |
内核 |
5.14.0-362.8.1.el9_3 |
GPU 驱动程序和 CUDA Toolkit |
CUDA Toolkit 12.2 和 GPU 驱动程序 535.129.03(默认) |
NCCL |
|
cuDNN |
|
DCGM |
|
GPU Direct Storage |
1.7.2 或更高版本 |
NVIDIA 系统管理 (NVSM) |
|
Docker-CE |
|
NVIDIA Container Runtime |
|
MIG 配置工具 |
0.5.4-1 |
NGC CLI |
3.17.0-1 |
DLFW(深度学习框架) |
23.10 |
下表提供了 NVIDIA® OpenFabrics Enterprise Distribution for Linux (MLNX_OFED) 版本 23.10-1.1.9.0 的支持的操作系统和匹配的固件版本信息。
操作系统
|
DGX-1、DGX-2
ConnectX-4 (CX-4) 或
ConnectX-5 (CX-5)
|
DGX A100
ConnectX-6
|
DGX A100
ConnectX-7
|
DGX H100
ConnectX-7
|
---|---|---|---|---|
RHEL 9
|
CX-5: 16.35.3006 CX-4: 12.28.2006 |
20.39.1002 |
28.39.1002 |
28.39.1002 |
支持的 DGX 系统#
NVIDIA 已验证并测试了 EL9-23.12 与以下 DGX 系统的兼容性
DGX H100
DGX A100 640 GB
DGX A100 320 GB
DGX A800 640 GB
DGX-2
DGX-1 32 GB
DGX Station A100 320 GB
DGX Station A100 160 GB
DGX Station 32 GB
已解决的问题#
以下问题已在 EL9-23.12 版本中解决
错误 ID |
问题 |
---|---|
4108242 |
运行 |
4386925 |
GPUDirect RDMA 带宽测试失败,并显示 |
版本 EL9-23.08#
发行亮点#
增加对 NVIDIA DGX H100 系统的支持。支持仅限于 Red Hat Enterprise Linux 9.1 版本。
增加对 Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2 的支持。
合格软件栈#
下表提供了 EL9-23.08 及其已合格软件的版本信息
组件 |
存储库中的最新版本 |
---|---|
Linux 发行版 |
Red Hat Enterprise Linux 9.2 和 Rocky Linux 9.2 对于 NVIDIA DGX H100 系统,仅支持 Red Hat Enterprise Linux 9.1。 |
GPU 驱动程序 |
|
CUDA Toolkit |
|
NCCL |
|
CuDNN |
8.9.2.26 |
DCGM |
3.1.8 |
MLNX OFED |
|
MLNX FW |
|
GPU Direct Storage |
1.7.2 |
NVIDIA 系统管理 (NVSM) |
23.06.04 |
Docker Engine |
23.0.4 |
NVIDIA Container Runtime |
|
MIG 配置工具 |
0.5.1 |
NGC CLI |
3.17.0 |
DLFW(深度学习框架) |
23.07 |
下表提供了 Mellanox OFED 的支持的操作系统和匹配的固件版本信息。
操作系统 |
DGX-1、DGX-2 ConnectX-4 或 ConnectX-5 |
DGX A100 ConnectX-6 (CX-6) |
DGX A100 ConnectX-7 (CX-7) |
DGX H100 ConnectX-7 (CX-7) |
---|---|---|---|---|
RHEL 8 |
|
|
|
|
RHEL 9 |
|
|
|
|
支持的 DGX 系统#
NVIDIA 已验证并测试了 EL9-23.08 与以下 DGX 系统的兼容性
NVIDIA DGX H100
NVIDIA DGX A100
NVIDIA DGX Station A100
NVIDIA DGX Station
NVIDIA DGX-2
NVIDIA DGX-1
版本 EL9-23.01#
Red Hat Enterprise Linux 9 的 DGX 软件堆栈的初始版本。
合格软件栈#
下表提供了 EL9-23.01 及其已合格软件的版本信息
组件 |
此版本中的版本 |
---|---|
Linux 发行版 |
Red Hat Enterprise Linux 9.1 和 Rocky Linux 9.1 |
GPU 驱动程序 |
|
CUDA Toolkit |
12.0 |
NCCL |
2.18.1 |
CuDNN |
8.9.1.23 |
DCGM |
3.1.8 |
NVIDIA MLNX_OFED |
5.8-2.0.3.0 |
NVIDIA ConnectX 固件 |
|
NVIDIA 系统管理 (NVSM) |
22.12.04 |
Docker Engine |
23.0.4 |
NVIDIA Container Runtime |
|
MIG 配置工具 |
0.5.1 |
NGC CLI |
3.17.0 |
DLFW(深度学习框架) |
23.03 |
支持的 DGX 系统#
NVIDIA 已验证并测试了 EL9-23.01 与以下 DGX 系统的兼容性
DGX-1
DGX-2
DGX Station
DGX A100
DGX Station A100