安装 DGX 软件#
本节要求您已在 DGX 系统上安装了 Red Hat Enterprise Linux 8 或衍生操作系统。如果您已经在 kickstart 安装期间安装了 DGX 软件堆栈,则可以跳过本节。
配置系统代理#
如果您的网络需要使用代理,则
编辑文件
/etc/dnf/dnf.conf
并确保[main]
部分中存在以下行,使用适用于您网络的参数proxy=http://<Proxy-Server-IP-Address>:<Proxy-Port> proxy_username=<Proxy-User-Name> proxy_password=<Proxy-Password>
启用 DGX 软件仓库#
注意
通过运行这些命令,您确认已阅读并同意受DGX 软件许可协议的约束。您还确认您理解,您选择在 DGX 中安装的任何预发布软件和材料可能无法完全正常运行,可能包含错误或设计缺陷,并且相对于 NVIDIA 软件和材料的商业版本,可能具有降低的或不同的安全性、隐私性、可用性和可靠性标准,并且您使用预发布版本需自行承担风险。
安装 Red Hat Enterprise Linux 的 NVIDIA DGX 软件包。
sudo dnf install -y https://repo.download.nvidia.com/baseos/el/el-files/8/nvidia-repo-setup-21.06-1.el8.x86_64.rpm
安装必需组件#
在 Red Hat Enterprise Linux 上,运行以下命令以启用 DGX 软件所需的其他仓库。
sudo subscription-manager repos --enable=rhel-8-for-x86_64-appstream-rpms sudo subscription-manager repos --enable=rhel-8-for-x86_64-baseos-rpms sudo subscription-manager repos --enable=codeready-builder-for-rhel-8-x86_64-rpms
升级到最新软件。
注意
在执行升级之前,请查阅发行说明,了解根据特定 EL8 发行版的其他说明。
sudo dnf update -y --nobest
安装 DGX 工具和配置文件。
对于 DGX-1,安装DGX-1 配置。
sudo dnf group install -y 'DGX-1 Configurations'
对于 DGX-2,安装DGX-2 配置。
sudo dnf group install -y 'DGX-2 Configurations'
对于 DGX A100,安装DGX A100 配置。
sudo dnf group install -y 'DGX A100 Configurations'
对于 DGX H100,安装DGX H100 配置。
sudo dnf group install -y 'DGX H100 Configurations'
对于 DGX A800,安装DGX A800 配置。
sudo dnf group install -y 'DGX A800 Configurations'
对于 DGX Station,安装DGX Station 配置。
sudo dnf group install -y 'DGX Station Configurations'
对于 DGX Station A100,安装DGX Station A100 配置。
sudo dnf group install -y 'DGX Station A100 Configurations'
对于 DGX Station A800,安装DGX Station A800 配置。
sudo dnf group install -y 'DGX Station A800 Configurations'
配置更改仅在系统重启后生效,重启将在安装 CUDA 驱动程序后执行。
配置
/raid
分区。所有 DGX 系统都支持 RAID 0 或 RAID 5 阵列。
以下命令创建 RAID 阵列,将其挂载到
/raid
并在/etc/fstab
中创建适当的条目。要创建 RAID 0 阵列
sudo /usr/bin/configure_raid_array.py -c -f
要创建 RAID 5 阵列
sudo /usr/bin/configure_raid_array.py -c -f -5
注意
必须在安装
nvidia-conf-cachefilesd
之前配置 RAID 阵列,这会将正确的 SELinux 标签放在/raid
目录上。如果您需要在安装nvidia-conf-cachefilesd
后重新创建 RAID 阵列(这将清除/raid
上的任何标签),请务必在重启cachefilesd
之前手动恢复标签。sudo restorecon /raid sudo systemctl restart cachefilesd
可选:如果您希望使用 RAID 阵列进行缓存,请安装
nvidia-conf-cachefilesd
。这将更新cachefilesd
配置以使用/raid
分区。sudo dnf install -y nvidia-conf-cachefilesd
安装 NVIDIA CUDA 驱动程序。
将以下命令中的
525
值替换为您要安装的 NVIDIA GPU 驱动程序分支。有关支持的驱动程序分支的信息,请参阅NVIDIA DGX Software for Red Hat Enterprise Linux 8 发行说明。如果您需要安装与特定 CUDA 库版本对应的驱动程序,请参阅NVIDIA 驱动程序文档中的驱动程序发行说明。发行说明中的 CUDA Toolkit 版本标识了 CUDA 版本。
重要提示
如果您要从本地仓库安装 CUDA 驱动程序,请按照从本地仓库安装 NVIDIA CUDA 驱动程序中的说明进行操作,而不是此步骤。
可选:列出可用的驱动程序模块。
sudo dnf module list nvidia-driver
对于非 NVSwitch 系统,例如 DGX-1、DGX Station 和 DGX Station A100,请使用 default 和 src 配置文件安装驱动程序。
sudo dnf module install --nobest -y nvidia-driver:525/{default,src} sudo dnf install -y nv-persistence-mode libnvidia-nscq-525
对于 NVSwitch 系统,例如 DGX-2 和 DGX A100/A800,请使用 fabric manager (fm) 和 src 配置文件安装驱动程序。
sudo dnf module install --nobest -y nvidia-driver:525/{fm,src} sudo dnf install -y nv-persistence-mode nvidia-fm-enable
对于 DGX H100,请使用 fabric manager (fm) 配置文件安装 DKMS 版本的驱动程序
sudo dnf module install --nobest -y nvidia-driver:535-dkms/fm sudo dnf install -y nv-persistence-mode nvidia-fm-enable
(仅限 DGX Station A100/A800)安装 DGX Station A100 和 DGX Station A800 所需的其他软件包。
必须在安装
nvidia-driver
模块后安装这些软件包。sudo dnf install -y nvidia-conf-xconfig nv-docker-gpus
重启系统以加载驱动程序并更新系统配置。
发出重启命令。
sudo reboot
系统重启后,验证驱动程序是否已加载并正在处理 NVIDIA 设备。
nvidia-smi
输出示例
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 525.125.06 Driver Version: 525.125.06 CUDA Version: 12.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... On | 00000000:06:00.0 Off | 0 | | N/A 35C P0 42W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ | 1 Tesla V100-SXM2... On | 00000000:07:00.0 Off | 0 | | N/A 35C P0 44W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ ... +-------------------------------+----------------------+----------------------+ | 7 Tesla V100-SXM2... On | 00000000:8A:00.0 Off | 0 | | N/A 35C P0 43W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
安装 NVIDIA 容器设备插件。
安装
docker-ce
。由于这可能会与系统上现有的软件包冲突,请指定
--allowerasing
选项sudo dnf install -y docker-ce --allowerasing
安装 NVIDIA Container Runtime 组。
sudo dnf group install -y 'NVIDIA Container Runtime'
重启 docker 守护程序。
sudo systemctl restart docker
运行以下命令以验证安装。
sudo docker run --gpus=all --rm nvcr.io/nvidia/cuda:12.0.0-base-ubi8 nvidia-smi
有关此命令的更多信息,请参阅运行容器部分。
输出示例
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 525.125.06 Driver Version: 525.125.06 CUDA Version: 12.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... On | 00000000:06:00.0 Off | 0 | | N/A 35C P0 42W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ | 1 Tesla V100-SXM2... On | 00000000:07:00.0 Off | 0 | | N/A 35C P0 44W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ ... +-------------------------------+----------------------+----------------------+ | 7 Tesla V100-SXM2... On | 00000000:8A:00.0 Off | 0 | | N/A 35C P0 43W / 300W | 0MiB / 16160MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------
另一个必需软件组件的安装在使用 NVIDIA Mellanox InfiniBand 驱动程序中进行了解释。
安装可选组件#
在按照安装必需组件中的描述安装组件后,DGX 即可完全正常运行。如果您打算在 DGX 系统上启动 NGC 容器(其中包含 CUDA toolkit、NCCL、cuDNN 和 TensorRT),这是预期的用例,则可以跳过本节。
如果您打算将 DGX 系统用作在裸机上运行深度学习应用程序的开发系统,则请按照本节中的描述安装可选组件。
要安装 CUDA Toolkit 12.0,请发出以下命令。
$ sudo dnf install -y cuda-toolkit-12-0 cuda-compat-12-0 nvidia-cuda-compat-setup
要管理自加密驱动器,请安装
nv-disk-encrypt
软件包,发出以下命令。$ sudo dnf install -y nv-disk-encrypt $ sudo reboot
有关使用信息,请参阅DGX A100/A800 用户指南中的“管理自加密驱动器”部分。
要安装 NVIDIA Collectives Communication Library (NCCL) 运行时,请参阅NCCL:入门文档。
要安装 CUDA 深度神经网络 (cuDNN) 库运行时,请参阅 NVIDIA cuDNN 页面。
要安装 NVIDIA TensorRT,请参阅 NVIDIA TensorRT 页面。
要安装 NVIDIA GPUDirect Storage (GDS),请发出以下命令以安装 GDS 软件包。
$ sudo dnf install nvidia-gds
如果您安装了 MLNX_OFED 驱动程序,请务必在其中启用 GDS。请参阅使用 NVIDIA Mellanox InfiniBand 驱动程序。
安装可选的 NVIDIA 桌面主题#
DGX 软件仓库还提供可选的主题软件包和桌面壁纸,以使用户界面具有 NVIDIA 的外观和风格。这些软件包本应作为DGX Station 配置组的一部分安装,但用户也可以手动安装此软件包
要应用主题和背景图像,请首先打开 gnome-tweaks。
在应用程序下,选择 NV-Yaru 主题之一。
这有默认、浅色和深色变体。
在Shell 下,选择 NV-Yaru-dark 主题。
如果此字段灰显,您可能需要重启系统或重启 GDM 才能启用 user-themes 扩展。
要重启 GDM,请发出以下命令。
sudo systemctl restart gdm
为背景图像和锁屏选择 NVIDIA 壁纸之一。