管理操作系统和软件更新#
DGX OS 7 是 Ubuntu 24.04 Linux 发行版的优化版本,可访问 Ubuntu 和 NVIDIA 存储库中提供的大量额外软件。 有关 Ubuntu 提供的其他软件的更多信息,请参阅安装其他应用程序。
在安装其他软件或升级已安装的软件之前,请参阅发行说明以获取最新的发布信息。 要安装其他软件,请使用 apt
命令或图形工具。 图形工具仅适用于 DGX Station A100 系统。
此外,您可以更改 GPU 分支并升级到不同的 CUDA Toolkit 版本,以维护或优化 DGX 系统的操作系统。
升级系统#
在安装任何其他软件之前,您应该将系统升级到最新版本。 这确保您可以访问自上次升级以来添加到存储库中的新软件版本。 有关更多信息和说明,包括启用 Ubuntu 的 扩展安全维护 更新的说明,请参阅升级操作系统。
重要提示
您只有在升级 DGX OS 后才能看到最新的软件分支。
注意
当您在软件分支之间切换时,例如 GPU 驱动程序或 CUDA 工具包,您必须为新分支安装软件包。 根据软件的不同,它将删除现有分支或支持系统上安装的并发分支。
更改您的 GPU 分支#
NVIDIA 驱动程序是 CUDA 存储库的一部分。
有关 NVIDIA 驱动程序版本的更多信息,请参阅 NVIDIA 驱动程序文档 中的发行说明。
DGX B200 系统包括第五代 NVLink 和 NVLink 交换系统 (NVL5)。 对于此版本的 NVLink,Base OS 7 包含其他软件包,以启用完整的 NVLink 功能。 这些软件包包括 nvlsm
和 libnvsdm
等。 执行 GPU 驱动程序更新时,需要同时更新驱动程序和相应的 NVL5 堆栈软件包。 DGX B200 (NVL5) 系统的更新在 NVIDIA 开源 GPU 内核模块驱动程序的步骤中列出,如升级您的 GPU 分支中所述。
检查当前安装的驱动程序分支#
在安装新的 NVIDIA 驱动程序分支之前,要检查当前安装的驱动程序分支,请运行以下命令
apt list --installed nvidia-driver*-open
确定新的可用驱动程序分支#
以下步骤可帮助您确定哪些新的驱动程序分支可用。
要查看新的可用 NVIDIA 驱动程序分支
使用来自 Ubuntu 存储库的最新信息更新本地数据库。
sudo apt update
显示可用的 NVIDIA 开源 GPU 内核模块分支。
apt list nvidia-driver-*-open
升级您的 GPU 分支#
要手动将您的驱动程序升级到最新分支
安装最新的内核。
sudo apt install -y linux-generic
升级 NVIDIA GPU 驱动程序。
注意
从下面的
apt install
示例中,选择适合您环境的命令集。 将 570 版本的 GPU 驱动程序替换为您要安装的版本系列。对于 DGX 系统,安装的 GPU 驱动程序版本必须为 570 或更高版本。
要安装与当前 GPU 驱动程序不同的版本系列的 NVIDIA 开源 GPU 内核模块驱动程序,请使用
-open
字符串指定软件包,例如,nvidia-driver-570-open
注意
在以下命令中,
nvidia${GPU_BRANCH}*-
中的尾随-
字符指定将在同一事务中删除当前安装的 GPU 驱动程序。 由于此操作会从系统中删除软件包,因此务必首先执行试运行,以确保将删除正确的软件包。在非 Fabric Manager 系统(例如 NVIDIA DGX Station A100 和 DGX Station A800 系统)上,运行以下命令
GPU_BRANCH=$(dpkg -l | grep nvidia-driver | tr -s " " | cut -d' ' -f3 | cut -d'.' -f1) # Specify --dry-run to check the packages to install. sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe "*nvidia*${GPU_BRANCH}*-" --dry-run # Install the packages. sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe "*nvidia*${GPU_BRANCH}*-"
在 NVL5 Fabric Manager 系统(例如 NVIDIA DGX B200)上,运行相同的命令,但附加
nvidia-fabricmanager-570 nvlsm libnvsdm-570
软件包GPU_BRANCH=$(dpkg -l | grep nvidia-driver | tr -s " " | cut -d' ' -f3 | cut -d'.' -f1) # Specify --dry-run to check the packages to install. sudo apt install -y doca-ofed --dry-run sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570 nvlsm libnvsdm-570 "*nvidia*${GPU_BRANCH}*-" --dry-run # Install the packages. sudo apt install -y doca-ofed sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570 nvslm libnvsdm-570 "*nvidia*${GPU_BRANCH}*-"
在 NVL5 之前的 Fabric Manager 系统(例如 NVIDIA DGX A100、DGX A800、DGX H800、DGX H100/H200 系统)上,运行相同的命令,但附加
nvidia-fabricmanager-570
软件包GPU_BRANCH=$(dpkg -l | grep nvidia-driver | tr -s " " | cut -d' ' -f3 | cut -d'.' -f1) # Specify --dry-run to check the packages to install. sudo apt install -y doca-ofed --dry-run sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570 "*nvidia*${GPU_BRANCH}*-" --dry-run # Install the packages. sudo apt install -y doca-ofed sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570 "*nvidia*${GPU_BRANCH}*-"
要安装与当前 GPU 驱动程序相同的版本系列的 NVIDIA 开源 GPU 内核模块驱动程序,例如 570 版本,
在非 Fabric Manager 系统(例如 NVIDIA DGX Station A100 和 DGX Station A800 系统)上,首先删除当前驱动程序,然后安装软件包
# Remove the current driver. sudo apt-get purge "*nvidia*570*" # Install the packages. sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe
在具有 NVL5 的 Fabric Manager 系统(例如 NVIDIA DGX B200)上,运行相同的命令,但附加
nvidia-fabricmanager-570 nvslm libnvsdm-570
软件包#Remove the current driver. sudo apt-get purge "*nvidia*570*" #Install the packages. sudo apt install -y doca-ofed sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570 nvlsm libnvsdm-570
在 NVL5 之前的 Fabric Manager 系统(例如 NVIDIA DGX A100、DGX A800、DGX H800、DGX H100/H200)上,运行相同的命令,但附加
nvidia-fabricmanager-570
软件包#Remove the current driver. sudo apt-get purge "*nvidia*570*" #Install the packages. sudo apt install -y doca-ofed sudo apt install -y nvidia-driver-570-open libnvidia-nscq-570 nvidia-modprobe nvidia-fabricmanager-570
重新启动系统以确保加载新的驱动程序
sudo reboot
安装或升级到较新的 CUDA Toolkit 版本#
只有 DGX Station 和 DGX Station A100 默认安装了 CUDA Toolkit 版本。 DGX 服务器旨在成为使用容器的共享资源,默认情况下未安装 CUDA Toolkit。 但是,您可以选择安装合格的 CUDA Toolkit 版本。
尽管 DGX OS 支持与已安装驱动程序互操作的所有 CUDA Toolkit 版本,但 DGX OS 版本可能包含默认的 CUDA Toolkit 版本,该版本可能不是最新发布的版本。 除非您必须使用包含新功能的新的 CUDA Toolkit 版本,否则我们建议您保留 DGX OS 版本中包含的默认版本。 有关默认 CUDA Toolkit 版本,请参阅DGX OS 软件发行说明。
重要提示
在安装或升级到任何 CUDA Toolkit 版本之前,请确保该版本与系统上安装的驱动程序兼容。 有关更多信息和兼容性矩阵,请参阅CUDA 兼容性。
CUDA 兼容性矩阵和向前兼容性#
每个 CUDA 工具包都需要最低 GPU 驱动程序版本。 此兼容性矩阵记录在CUDA 兼容性中
如果安装了适当的向前兼容性软件包,则较新的 CUDA 工具包可以与较旧的 GPU 驱动程序一起使用。 请参阅:安装 CUDA 向前兼容性软件包
示例
CUDA 工具包 12.0 需要 GPU 驱动程序版本 525.60.13,但安装了 GPU 驱动程序 515.43.04。 为了将 CUDA 工具包 12.0 与较旧的 GPU 驱动程序一起使用,您必须安装 cuda-compat-12-0 软件包
sudo apt install cuda-compat-12-0
手动设置 LD_LIBRARY_PATH
LD_LIBRARY_PATH=/usr/local/cuda/compat:$LD_LIBRARY_PATH
或通过 /etc/ld.so.conf
文件或通过在 /etc/ld.so.conf.d/
下添加文件自动设置。
检查当前安装的 CUDA Toolkit 版本#
以下是有关确定您当前已安装的 CUDA Toolkit 版本的前提条件的一些信息。
在安装新的 CUDA Toolkit 版本之前,要检查当前安装的版本,请运行以下命令
apt list --installed cuda-toolkit-*
以下示例输出显示已安装 CUDA Toolkit 11.0
apt list --installed cuda-toolkit-*
Listing... Done
cuda-toolkit-11-0/unknown,unknown,now 11.0.3-1 amd64 [installed]
N: There is 1 additional version. Please use the '-a' switch to see it
安装或升级 CUDA Toolkit#
以下步骤可帮助您确定哪些新的 CUDA Toolkit 版本可用。
要查看新的可用 CUDA Toolkit 版本
使用来自 Ubuntu 存储库的最新信息更新本地数据库。
sudo apt update
显示所有可用的 CUDA Toolkit 版本。
apt list cuda-toolkit-*
以下输出显示 11.7、11.8、12.0 是可以安装的 CUDA Toolkit 版本
Listing... Done cuda-toolkit-11-7/unknown 11.7.1-1 amd64 cuda-toolkit-11-8/unknown 11.8.0-1 amd64 cuda-toolkit-12-0/unknown 12.0.0-1 amd64
要安装或升级 CUDA Toolkit,请运行以下命令
sudo apt install cuda-toolkit-<version>
安装 GPUDirect Storage 支持#
NVIDIA Magnum IO GPUDirect Storage (GDS) 允许 GPU 内存和存储之间进行直接数据路径直接内存访问 (DMA) 传输。 此软件避免了通过 CPU 的反弹缓冲区。
注意
本节仅在您打算在裸机中使用 GPUDirect Storage 时适用。
安装 GDS 组件#
在 DGX 服务器(DGX B200、H100/H200、H800 和 A100/A800)上
安装
nvidia-gds
软件包。sudo apt install nvidia-gds
在 DGX 工作站(DGX Station A800 和 A100)上
安装
nvidia-gds
软件包。sudo apt update sudo apt install doca-repo -y sudo apt update sudo apt install nvidia-peermem-loader nvidia-gds mlnx-nvme-dkms mlnx-nfsrdma-dkms -y MODULE_VERSION=$(dkms status nvidia | cut -d "," -f1) sudo dkms remove -m ${MODULE_VERSION} -k $(uname -r) && sudo dkms install -m ${MODULE_VERSION} -k $(uname -r)
为 NVMe 驱动器启用宽松排序#
NVIDIA DGX 系统中使用的 Samsung NVMe 驱动器支持 I/O 操作的宽松排序。 宽松排序使 PCIe 总线能够无序完成事务。 当您使用 GPUDirect Storage 以提高性能时,NVIDIA 建议启用此设置。
运行
nvidia-relaxed-ordering-nvme.sh
实用程序。sudo /bin/nvidia-relaxed-ordering-nvme.sh enable
后续步骤#
请参阅NVIDIA GPUDirect Storage 安装和故障排除指南中的验证 GDS 安装是否成功。