当前 NVIDIA DGX OS 4 服务器软件#
本节列出了已针对 NVIDIA DGX-1 和 DGX-2 系统发布的 NVIDIA® DGX™ OS 4 服务器软件映像和更新。要确定系统上 DGX OS Server 软件的版本,请输入以下命令。
交付和更新机制#
DGX OS Server Release 4.14 以 ISO 映像形式提供,如果服务器需要重新映像,可从 NVIDIA 企业支持获得。版本 4.14 也作为网络更新提供,这需要互联网连接和访问 NVIDIA 公共存储库的能力。该存储库包含自 ISO 版本发布以来用于错误修复和安全更新的其他软件更新。有关最新信息,请参阅更新历史记录。
有关以下说明,请参阅 DGX-2 用户指南 和 DGX-1 用户指南
如何使用 ISO 映像重新映像系统
如何在气隙系统上安装软件
注意
该存储库包含自 ISO 版本发布以来用于错误修复和安全性的其他软件更新。请参阅版本信息。
版本 4.14 (DGX-1, DGX-2)
注意
如果您的系统运行的版本早于 DGX OS 4.12,则需要更新系统上的密钥。有关如何轮换密钥的更多信息,请参阅轮换 GPG 密钥 <rotate-gpg-keys-server>
自版本 4.13.0 以来的更改
将 NVIDIA Release 450 GPU 驱动程序更新至 450.203.03
将 NVSM(用于 Release 450 驱动程序包)更新至 20.09.40
将 DCGM(用于 Release 450 驱动程序包)更新至 2.4.5
将 NCCL 更新至 2.13.4
将 MLNX OFED 更新至 4.9-4.1.7.0
将 NVIDIA Container Toolkit (
nvidia-container-runtime
) 更新至 3.10.0-1将 Docker Engine 更新至 20.10.17
将 DLFW (BM) 更新至 22.06
更新历史记录
本节提供有关自初始版本以来对 DGX OS 4.14 的更新信息。这些更新可从公共存储库获得。
有关如何使用 NVIDIA 公共存储库中的所有最新 DGX OS 4.14 更新来更新 DGX OS 的说明,请参阅执行更新。
更新:2023 年 5 月 17 日
将 NVIDIA Release 450 GPU 驱动程序更新至:450.236.01
将 docker-ce 更新至 23.0.4。
更新:2022 年 12 月 12 日
将 NVIDIA Release 450 GPU 驱动程序更新至:450.216.04
初始版本:4.14.0
有关其他更改、更新说明和已知问题,请参阅以下内容。
更新建议
NVIDIA GPU Cloud 容器
与 DGX OS Server v4.14 结合使用,客户应将其 NVIDIA GPU Cloud 容器更新到最新的容器版本。 ‘
有关最新容器版本的信息,请参阅NVIDIA 深度学习框架文档网站 (http://docs.nvda.net.cn/deeplearning/dgx/index.htm),有关如何访问容器的说明,请参阅 http://docs.nvda.net.cn/deeplearning/dgx/user-guide/index.html。
Ubuntu 安全更新
客户有责任使用以下方法使 DGX 服务器保持最新的 Ubuntu 安全更新:
sudo apt full upgrade
有关更多信息,请参阅 Ubuntu Wiki 升级 网页。 Ubuntu 安全公告网站 (https://usn.ubuntu.com/) 还列出了已知的常见漏洞和暴露 (CVE),包括那些可以通过更新 DGX OS 软件来解决的漏洞。
有关最新容器版本的信息,请参阅NVIDIA 深度学习框架文档网站 (http://docs.nvda.net.cn/deeplearning/dgx/index.htm),有关如何访问容器的说明,请参阅 http://docs.nvda.net.cn/deeplearning/dgx/user-guide/index.html。
DGX OS Server 软件内容
下表提供了 DGX OS Server ISO 映像中软件的版本信息,以及在获得后续更新后系统上安装的软件的版本信息。
版本 4.14.0 中的软件包版本
下表显示了 DGX OS Server 版本 4.14.0 中包含的软件的版本信息
软件组件 |
版本(R450 软件包) |
DGX 基础操作系统 |
4.14 |
操作系统 |
Ubuntu 18.04 LTS |
内核 (Ubuntu) |
4.15.0-176 或更高版本 |
CUDA TK |
11.0.3 |
GPU 驱动程序 |
|
NCCL |
2.13.4 |
cuDNN |
8.4.1 |
DCGM |
2.4.5 |
MLNX OFED |
4.9-4.1.7.0 |
MLNX FW |
CX-4: 12.28.2006 CX-5: 16.28.2006 CX-6: 20.28.2006 |
NVSM |
20.09.40 |
docker-ce docker-ce-cli |
23.0.4 |
nvidia-container-runtime nvidia-container-toolkit libnvidia-container-tools libnvidia-container1 nvidia-docker2 |
3.10.0-1 1.10release.0-1 1.10.0-1 1.10.0-1 2.11.0-1 |
KVM (仅限 DGX-2) |
dgx-kvm-sw 19.07.0 dgx-kvm-host-utils 21.10.1 dgx-kvm-host-conf 20.12.0 dgx-kvm-image-4-13-0_4.13.0~220506-5779d5.0_amd64.deb |
DLFW (BM) |
22.06 |
DGX 服务器固件版本参考
Mellanox 固件作为 DGX OS 更新的一部分进行更新。以下是每个产品的更新版本
产品 |
网卡 |
版本 |
---|---|---|
NVIDIA DGX-1 |
ConnectX-4 ConnectX-5 |
12.28.2006 16.28.2006 |
NVIDIA DGX-2 |
ConnectX-5 ConnectX-6 |
16.28.2006 20.28.2006 |
对于其他固件。请参阅 DGX-2 系统固件更新容器版本 21.06.7 和 DGX-1 系统固件更新容器版本 21.06.8 发行说明,了解此 DGX OS 版本发布时可用的相应固件版本。
版本 4.13 (DGX-1, DGX-2)
注意
如果您的系统运行的版本早于 DGX OS 4.12,则需要更新系统上的密钥。有关如何轮换密钥的更多信息,请参阅 轮换 GPG 密钥
亮点
将 NVIDIA Release 450 GPU 驱动程序更新至 450.191.01。
将 NVSM 更新至 20.09.37
初始版本:4.13.0
有关其他更改、更新说明和已知问题,请参阅以下内容。
版本 4.12 (DGX-1, DGX-2)
重要
在 DGX OS 4.12 中,用于签署这些存储库中的元数据和软件包的 GPG 密钥需要轮换。有关更多信息,请参阅 :ref:轮换 GPG 密钥 <rotate-gpg-keys-server>。
在 DGX OS 4.12 中,组件版本均未更改。
版本 4.11 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 450 GPU 驱动程序更新至 450.172.01
初始版本:4.11.0
有关其他更改、更新说明和已知问题,请参阅以下内容。
版本 4.10 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 418 GPU 驱动程序更新至 418.226.00。
将 NVIDIA Release 450 GPU 驱动程序更新至 450.156.00
初始版本:4.10.0
有关其他更改、更新说明和已知问题,请参阅以下内容。
版本 4.9 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 418 GPU 驱动程序更新至 418.211.00。
将 NVIDIA Release 450 GPU 驱动程序更新至 450.142.00
改进了 ConnectX 网卡固件的更新过程。
如果从 DGX OS 4.8 或更高版本更新,则现在并行更新所有网卡的固件,而不是一次更新一个,从而显着减少了更新所有网卡的时间。
初始版本:4.9.0
有关其他更改、更新说明和已知问题,请参阅以下内容。
版本 4.8 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 418 GPU 驱动程序更新至 418.197.02。
将 NVIDIA Release 450 GPU 驱动程序更新至 450.119.04
初始版本:4.8.0
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.7 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 418 GPU 驱动程序更新至 418.181.07。
将 NVIDIA Release 450 GPU 驱动程序更新至 450.102.04
更新了 NVIDIA KVM 软件
初始版本:4.7.0
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.6 (仅限 DGX-1, DGX-2)
亮点
将 NVIDIA Release 418 GPU 驱动程序更新至 418.165.02。
将 NVIDIA Release 450 GPU 驱动程序更新至 450.80.02
将 Mellanox OFED 驱动程序更新至 4.9
初始版本:4.6.0
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.5 (仅限 DGX-1, DGX-2)
重要
版本 4.5 的更新不再可用。尝试更新到版本 4.5 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
将 NVIDIA GPU 驱动程序更新至 418.152.00。
添加了可选存储库以安装 NVIDIA Release 450 GPU 驱动程序
更新至 Ubuntu 18.04.4 LTS
初始版本:4.5.0
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.4 (仅限 DGX-1, DGX-2)
重要
版本 4.4 的更新不再可用。尝试更新到版本 4.4 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
将 NVIDIA GPU 驱动程序更新至 418.126.02。
将 NVSM 软件更新至版本 20.01.15
添加了禁用和重新启用 CPU 缓解措施的功能。
添加了对 PXE 启动的支持。
添加了对 DGX-1 (Tesla V100) 上 Mellanox CX6 网卡的支持
最新补丁更新:4.4.1
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.3 (仅限 DGX-1, DGX-2)
重要
版本 4.3 的更新不再可用。尝试更新到版本 4.3 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
将 NVIDIA GPU 驱动程序更新至 418.116.00。
将 NVSM 软件更新至版本 19.08.6
将 DCGM 软件更新至版本 1.7.2
Docker 更新至版本 19.03.4-ce
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.2 (仅限 DGX-1, DGX-2)
重要
版本 4.2 的更新不再可用。尝试更新到版本 4.2 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
将 NVSM 软件更新至版本 19.08
Docker 更新至版本 19.03-ce
MLNX_OFED 4.6
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.1 (仅限 DGX-1, DGX-2)
重要
版本 4.1 的更新不再可用。尝试更新到版本 4.1 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
NVIDIA GPU 驱动程序版本 418
支持 CUDA 10.1
最新补丁更新:4.1.1
有关更新说明、其他信息和已知问题,请参阅以下内容。
版本 4.0 (仅限 DGX-1, DGX-2)
重要
版本 4.0 的更新不再可用。尝试更新到版本 4.0 会将您的 DGX Server 软件升级到最新的 DGX OS Server 4 版本。
亮点
首次发布以支持 NVIDIA DGX-2 系统
Ubuntu 18.04 LTS
NVIDIA GPU 驱动程序版本 410
支持 CUDA 10.0
Docker CE 和 NVIDIA Container Runtime for Docker 已预先安装,并且 docker 守护程序自动启动。
新的 NVIDIA 系统管理 (NVSM) 健康状况监控软件框架
取代
nvsysinfo
和nvhealth
有关最新版本的其他信息和已知问题,请参阅以下内容。