升级#
NVIDIA 和 Red Hat 在版本发布之间以更新软件包的形式提供操作系统更新,其中包含安全缓解措施和错误修复。
重要提示
以下是升级前您需要了解的一些重要信息before
不支持从安装了 DGX 软件堆栈的 Red Hat Linux 8 就地升级到 Red Hat Linux 9。
在安装或执行升级之前,请参阅发行说明部分,了解最新的 Red Hat Linux 版本、已知问题和解决方法。
为了保持在相同的 RHEL 版本并防止 Linux 内核和 GPU 驱动程序之间的不兼容,请使用
subscription-manager release --set=<release>
命令锁定 RHEL 版本。例如,subscription-manager release --set=9.3
命令将系统绑定到 RHEL 9.3。
您应该定期评估可用的更新,并使用 sudo dnf update --nobest
命令更新系统。
有关已知常见漏洞和披露 (CVE) 的列表,包括可以通过更新操作系统软件解决的漏洞,请参阅Red Hat 安全更新
注意
您有责任升级 DGX 系统上的软件,以安装来自这些来源的更新。
如果有可用更新,您可以通过运行以下命令获取软件包升级
sudo dnf update -nobest
升级到适用于 Linux 的 NVIDIA 显卡驱动程序需要重启才能完成内核升级。如果您在不重启 DGX 系统的情况下升级适用于 Linux 的 NVIDIA 显卡驱动程序,则在运行 nvidia-smi
命令时,将显示错误消息。
nvidia-smi
Failed to initialize NVML: Driver/library version mismatch
升级操作系统和 DGX 软件#
本节提供有关升级 DGX 系统的信息,以及可选的升级到不同的 GPU 分支的信息。
在不移动到新驱动程序分支的情况下升级软件#
要使用最新的 Red Hat Linux 升级来升级您的 DGX 系统,请运行以下命令
sudo dnf update -y --nobest
在非 NVSwitch 系统上更新软件并移动到新的驱动程序分支#
此过程适用于 DGX-1、DGX-2、DGX Station 和 DGX Station A100 系统。
发出以下命令以删除当前的驱动程序包并安装新的驱动程序包。
sudo dnf remove -y nv-persistence-mode libnvidia-nscq-<current driver version>
sudo dnf module remove --all -y nvidia-driver
sudo dnf module reset -y nvidia-driver
sudo dnf module install -y nvidia-driver:<new driver version>/{default,src}
sudo dnf install -y nv-persistence-mode libnvidia-nscq-<new driver version>
sudo dnf update -y --nobest
仅限 DGX Station A100 - 安装其他必需的 DGX Station A100 软件包。这些软件包必须在 nvidia-driver 模块之后安装。 sudo dnf install nvidia-conf-xconfig nv-docker-gpus
sudo dnf install nvidia-conf-xconfig nv-docker-gpus
重启系统。
sudo reboot
在 NVSwitch 系统上更新软件并移动到新的驱动程序分支#
此过程适用于 DGX-2、DGX A100 和 DGX A800 系统。
运行以下命令以删除当前的驱动程序包并安装新的驱动程序包
sudo dnf remove -y nv-persistence-mode libnvidia-nscq-<current driver version> nvidia-fm-enable
sudo dnf module remove --all -y nvidia-driver
sudo dnf module reset -y nvidia-driver
sudo dnf module install -y nvidia-driver:<new driver version>/{fm,src}
sudo dnf install -y nv-persistence-mode libnvidia-nscq-<new driver version> nvidia-fm-enable
sudo dnf update -y --nobest
重启系统。
sudo reboot
仅更改 NVIDIA 驱动程序分支#
要切换驱动程序分支,您必须先删除现有分支,然后再安装新分支
删除并清除现有流
sudo dnf module remove --all nvidia-driver sudo dnf module reset nvidia-driver
按照“安装 NVIDIA CUDA 驱动程序”部分安装新的驱动程序分支。
如果安装了 nvidia-peer-memory-dkms 驱动程序,则必须重新安装它以匹配新的驱动程序分支
sudo dnf reinstall -y nvidia-peer-memory-dkms
安装或升级到较新的 CUDA 工具包版本#
重要提示
在安装或升级到任何 CUDA 工具包版本之前,请确保该版本与系统上安装的驱动程序兼容。有关更多信息和兼容性矩阵,请参阅 CUDA 兼容性。
只有 DGX Station 和 DGX Station A100 默认安装了 CUDA 工具包版本。DGX 服务器旨在成为使用容器的共享资源,并且默认情况下未安装 CUDA 工具包。但是,您可以选择安装合格的 CUDA 工具包版本。
尽管支持所有与已安装驱动程序互操作的 CUDA 工具包版本,但 DGX 版本可能包含默认的 CUDA 工具包版本,该版本可能不是最新发布的版本。除非您必须使用包含新功能的新的 CUDA 工具包版本,否则我们建议您保留 DGX RHEL9 版本中包含的默认版本。有关默认 CUDA 工具包版本,请参阅发行说明。
检查当前安装的 CUDA 工具包版本#
以下是有关确定您当前已安装的 CUDA 工具包版本的前提条件的一些信息。
重要提示
默认情况下,DGX 服务器上未安装 CUDA 工具包,如果您尝试运行以下命令,将不会列出已安装的软件包
在安装新的 CUDA 工具包版本之前,要检查当前安装的版本,请运行以下命令
sudo dnf list installed "cuda-toolkit-*"
以下输出显示已安装 CUDA 工具包 12.0
Updating Subscription Management repositories.
Installed Packages
cuda-toolkit-12-0.x86_64 12.0.0-1 @CUDA
cuda-toolkit-12-0-config-common.noarch 12.0.107-1 @CUDA
cuda-toolkit-12-config-common.noarch 12.0.107-1 @CUDA
cuda-toolkit-config-common.noarch
确定新的可用 CUDA 工具包版本#
这些步骤帮助您确定哪些新的 CUDA 工具包版本可用。要查看新的可用 CUDA 工具包版本
sudo dnf search "cuda-toolkit-*"
Updating Subscription Management repositories.
Last metadata expiration check: 1:47:39 ago on Wed 18 Jan 2023 08:10:38 AM PST.
======================================================= Name Matched: cuda-toolkit-* =======================================================
cuda-toolkit-11-7.x86_64 : CUDA Toolkit 11.7 meta-package
cuda-toolkit-11-7-config-common.noarch : Common config package for CUDA Toolkit 11.7.
cuda-toolkit-11-8.x86_64 : CUDA Toolkit 11.8 meta-package
cuda-toolkit-11-8-config-common.noarch : Common config package for CUDA Toolkit 11.8.
cuda-toolkit-11-config-common.noarch : Common config package for CUDA Toolkit 11.
cuda-toolkit-12-0.x86_64 : CUDA Toolkit 12.0 meta-package
cuda-toolkit-12-0-config-common.noarch : Common config package for CUDA Toolkit 12.0.
cuda-toolkit-12-config-common.noarch : Common config package for CUDA Toolkit 12.
cuda-toolkit-config-common.noarch : Common config package for CUDA Toolkit.
输出显示 11.7、11.8 和 12.0 是可以安装的可能的 CUDA 工具包版本。
安装 CUDA 工具包或将您的 CUDA 工具包升级到较新的版本#
您可以安装 CUDA 工具包或将其升级到较新的版本。
要安装或升级 CUDA 工具包,请运行以下命令
sudo dnf install cuda-toolkit-12-0
注意
版本 12.0 仅作为示例 - 将该值替换为您希望安装的版本。
安装 GPUDirect Storage 支持#
NVIDIA® Magnum IO GPUDirect® Storage (GDS) 为 GPU 内存和存储之间的直接内存访问 (DMA) 传输启用直接数据路径,从而避免了通过 CPU 的反弹缓冲区。
安装 nvidia-gds#
要使用 GDS,请执行以下步骤
填充
${NVIDIA_DRV_VERSION}
变量安装带有正确依赖项的
nvidia-gds
sudo install nvidia-gds-{ver} nvidia-dkms-${NVIDIA_DRV_VERSION}-server
使用 CUDA 工具包版本号代替 <ver>
;例如,12-0