升级#

NVIDIA 和 Red Hat 在版本发布之间以更新软件包的形式提供操作系统更新,其中包含安全缓解措施和错误修复。

重要提示

以下是升级前您需要了解的一些重要信息before

  • 不支持从安装了 DGX 软件堆栈的 Red Hat Linux 8 就地升级到 Red Hat Linux 9。

  • 在安装或执行升级之前,请参阅发行说明部分,了解最新的 Red Hat Linux 版本、已知问题和解决方法。

    为了保持在相同的 RHEL 版本并防止 Linux 内核和 GPU 驱动程序之间的不兼容,请使用 subscription-manager release --set=<release> 命令锁定 RHEL 版本。例如,subscription-manager release --set=9.3 命令将系统绑定到 RHEL 9.3。

您应该定期评估可用的更新,并使用 sudo dnf update --nobest命令更新系统。

有关已知常见漏洞和披露 (CVE) 的列表,包括可以通过更新操作系统软件解决的漏洞,请参阅Red Hat 安全更新

注意

您有责任升级 DGX 系统上的软件,以安装来自这些来源的更新。

如果有可用更新,您可以通过运行以下命令获取软件包升级

sudo dnf update -nobest

升级到适用于 Linux 的 NVIDIA 显卡驱动程序需要重启才能完成内核升级。如果您在不重启 DGX 系统的情况下升级适用于 Linux 的 NVIDIA 显卡驱动程序,则在运行 nvidia-smi 命令时,将显示错误消息。

nvidia-smi
Failed to initialize NVML: Driver/library version mismatch

升级操作系统和 DGX 软件#

本节提供有关升级 DGX 系统的信息,以及可选的升级到不同的 GPU 分支的信息。

在不移动到新驱动程序分支的情况下升级软件#

要使用最新的 Red Hat Linux 升级来升级您的 DGX 系统,请运行以下命令

sudo dnf update -y --nobest

在非 NVSwitch 系统上更新软件并移动到新的驱动程序分支#

此过程适用于 DGX-1、DGX-2、DGX Station 和 DGX Station A100 系统。

  1. 发出以下命令以删除当前的驱动程序包并安装新的驱动程序包。

sudo dnf remove -y nv-persistence-mode libnvidia-nscq-<current driver version>
sudo dnf module remove --all -y nvidia-driver
sudo dnf module reset -y nvidia-driver
sudo dnf module install -y nvidia-driver:<new driver version>/{default,src}
sudo dnf install -y nv-persistence-mode libnvidia-nscq-<new driver version>
sudo dnf update -y --nobest
  1. 仅限 DGX Station A100 - 安装其他必需的 DGX Station A100 软件包。这些软件包必须在 nvidia-driver 模块之后安装。 sudo dnf install nvidia-conf-xconfig nv-docker-gpus

    sudo dnf install nvidia-conf-xconfig nv-docker-gpus
    
  2. 重启系统。

    sudo reboot
    

在 NVSwitch 系统上更新软件并移动到新的驱动程序分支#

此过程适用于 DGX-2、DGX A100 和 DGX A800 系统。

  1. 运行以下命令以删除当前的驱动程序包并安装新的驱动程序包

sudo dnf remove -y nv-persistence-mode libnvidia-nscq-<current driver version> nvidia-fm-enable
sudo dnf module remove --all -y nvidia-driver
sudo dnf module reset -y nvidia-driver
sudo dnf module install -y nvidia-driver:<new driver version>/{fm,src}
sudo dnf install -y nv-persistence-mode libnvidia-nscq-<new driver version> nvidia-fm-enable
sudo dnf update -y --nobest
  1. 重启系统。

    sudo reboot
    

仅更改 NVIDIA 驱动程序分支#

要切换驱动程序分支,您必须先删除现有分支,然后再安装新分支

  1. 删除并清除现有流

    sudo dnf module remove --all nvidia-driver
    sudo dnf module reset nvidia-driver
    
  2. 按照“安装 NVIDIA CUDA 驱动程序”部分安装新的驱动程序分支。

  3. 如果安装了 nvidia-peer-memory-dkms 驱动程序,则必须重新安装它以匹配新的驱动程序分支

    sudo dnf reinstall -y nvidia-peer-memory-dkms
    

安装或升级到较新的 CUDA 工具包版本#

重要提示

在安装或升级到任何 CUDA 工具包版本之前,请确保该版本与系统上安装的驱动程序兼容。有关更多信息和兼容性矩阵,请参阅 CUDA 兼容性。

只有 DGX Station 和 DGX Station A100 默认安装了 CUDA 工具包版本。DGX 服务器旨在成为使用容器的共享资源,并且默认情况下未安装 CUDA 工具包。但是,您可以选择安装合格的 CUDA 工具包版本。

尽管支持所有与已安装驱动程序互操作的 CUDA 工具包版本,但 DGX 版本可能包含默认的 CUDA 工具包版本,该版本可能不是最新发布的版本。除非您必须使用包含新功能的新的 CUDA 工具包版本,否则我们建议您保留 DGX RHEL9 版本中包含的默认版本。有关默认 CUDA 工具包版本,请参阅发行说明。

检查当前安装的 CUDA 工具包版本#

以下是有关确定您当前已安装的 CUDA 工具包版本的前提条件的一些信息。

重要提示

默认情况下,DGX 服务器上未安装 CUDA 工具包,如果您尝试运行以下命令,将不会列出已安装的软件包

在安装新的 CUDA 工具包版本之前,要检查当前安装的版本,请运行以下命令

sudo dnf list installed "cuda-toolkit-*"

以下输出显示已安装 CUDA 工具包 12.0

Updating Subscription Management repositories.

Installed Packages
cuda-toolkit-12-0.x86_64 12.0.0-1 @CUDA
cuda-toolkit-12-0-config-common.noarch 12.0.107-1 @CUDA
cuda-toolkit-12-config-common.noarch 12.0.107-1 @CUDA
cuda-toolkit-config-common.noarch

确定新的可用 CUDA 工具包版本#

这些步骤帮助您确定哪些新的 CUDA 工具包版本可用。要查看新的可用 CUDA 工具包版本

sudo dnf search "cuda-toolkit-*"
Updating Subscription Management repositories.
Last metadata expiration check: 1:47:39 ago on Wed 18 Jan 2023 08:10:38 AM PST.
======================================================= Name Matched: cuda-toolkit-* =======================================================
cuda-toolkit-11-7.x86_64 : CUDA Toolkit 11.7 meta-package
cuda-toolkit-11-7-config-common.noarch : Common config package for CUDA Toolkit 11.7.
cuda-toolkit-11-8.x86_64 : CUDA Toolkit 11.8 meta-package
cuda-toolkit-11-8-config-common.noarch : Common config package for CUDA Toolkit 11.8.
cuda-toolkit-11-config-common.noarch : Common config package for CUDA Toolkit 11.
cuda-toolkit-12-0.x86_64 : CUDA Toolkit 12.0 meta-package
cuda-toolkit-12-0-config-common.noarch : Common config package for CUDA Toolkit 12.0.
cuda-toolkit-12-config-common.noarch : Common config package for CUDA Toolkit 12.
cuda-toolkit-config-common.noarch : Common config package for CUDA Toolkit.

输出显示 11.7、11.8 和 12.0 是可以安装的可能的 CUDA 工具包版本。

安装 CUDA 工具包或将您的 CUDA 工具包升级到较新的版本#

您可以安装 CUDA 工具包或将其升级到较新的版本。

要安装或升级 CUDA 工具包,请运行以下命令

sudo dnf install cuda-toolkit-12-0

注意

版本 12.0 仅作为示例 - 将该值替换为您希望安装的版本。

安装 GPUDirect Storage 支持#

NVIDIA® Magnum IO GPUDirect® Storage (GDS) 为 GPU 内存和存储之间的直接内存访问 (DMA) 传输启用直接数据路径,从而避免了通过 CPU 的反弹缓冲区。

安装 nvidia-gds#

要使用 GDS,请执行以下步骤

  1. 填充 ${NVIDIA_DRV_VERSION} 变量

  2. 安装带有正确依赖项的 nvidia-gds

    sudo install nvidia-gds-{ver} nvidia-dkms-${NVIDIA_DRV_VERSION}-server
    

使用 CUDA 工具包版本号代替 <ver>;例如,12-0