安装 DGX 软件#

本节要求您已在 DGX 系统上安装了 Red Hat Enterprise Linux 8 或衍生操作系统。如果您已经在 kickstart 安装期间安装了 DGX 软件堆栈，则可以跳过本节。

配置系统代理#

如果您的网络需要使用代理，则

编辑文件 /etc/dnf/dnf.conf 并确保 [main] 部分中存在以下行，使用适用于您网络的参数

proxy=http://<Proxy-Server-IP-Address>:<Proxy-Port>
proxy_username=<Proxy-User-Name>
proxy_password=<Proxy-Password>

启用 DGX 软件仓库#

注意

通过运行这些命令，您确认已阅读并同意受DGX 软件许可协议的约束。您还确认您理解，您选择在 DGX 中安装的任何预发布软件和材料可能无法完全正常运行，可能包含错误或设计缺陷，并且相对于 NVIDIA 软件和材料的商业版本，可能具有降低的或不同的安全性、隐私性、可用性和可靠性标准，并且您使用预发布版本需自行承担风险。

安装 Red Hat Enterprise Linux 的 NVIDIA DGX 软件包。

sudo dnf install -y https://repo.download.nvidia.com/baseos/el/el-files/8/nvidia-repo-setup-21.06-1.el8.x86_64.rpm

安装必需组件#

在 Red Hat Enterprise Linux 上，运行以下命令以启用 DGX 软件所需的其他仓库。

sudo subscription-manager repos --enable=rhel-8-for-x86_64-appstream-rpms
sudo subscription-manager repos --enable=rhel-8-for-x86_64-baseos-rpms
sudo subscription-manager repos --enable=codeready-builder-for-rhel-8-x86_64-rpms

升级到最新软件。

注意

在执行升级之前，请查阅发行说明，了解根据特定 EL8 发行版的其他说明。
```
sudo dnf update -y --nobest
```
安装 DGX 工具和配置文件。
- 对于 DGX-1，安装DGX-1 配置。
```
sudo dnf group install -y 'DGX-1 Configurations'
```
- 对于 DGX-2，安装DGX-2 配置。
```
sudo dnf group install -y 'DGX-2 Configurations'
```
- 对于 DGX A100，安装DGX A100 配置。
```
sudo dnf group install -y 'DGX A100 Configurations'
```
- 对于 DGX H100，安装DGX H100 配置。
sudo dnf group install -y 'DGX H100 Configurations'
- 对于 DGX A800，安装DGX A800 配置。
```
sudo dnf group install -y 'DGX A800 Configurations'
```
- 对于 DGX Station，安装DGX Station 配置。
```
sudo dnf group install -y 'DGX Station Configurations'
```
- 对于 DGX Station A100，安装DGX Station A100 配置。
```
sudo dnf group install -y 'DGX Station A100 Configurations'
```
- 对于 DGX Station A800，安装DGX Station A800 配置。
```
sudo dnf group install -y 'DGX Station A800 Configurations'
```
配置更改仅在系统重启后生效，重启将在安装 CUDA 驱动程序后执行。
配置 /raid 分区。

所有 DGX 系统都支持 RAID 0 或 RAID 5 阵列。

以下命令创建 RAID 阵列，将其挂载到 /raid 并在 /etc/fstab 中创建适当的条目。
- 要创建 RAID 0 阵列
```
sudo /usr/bin/configure_raid_array.py -c -f
```
- 要创建 RAID 5 阵列
```
sudo /usr/bin/configure_raid_array.py -c -f -5
```
注意

必须在安装 nvidia-conf-cachefilesd 之前配置 RAID 阵列，这会将正确的 SELinux 标签放在 /raid 目录上。如果您需要在安装 nvidia-conf-cachefilesd 后重新创建 RAID 阵列（这将清除 /raid 上的任何标签），请务必在重启 cachefilesd 之前手动恢复标签。
```
sudo restorecon /raid
sudo systemctl restart cachefilesd
```
可选：如果您希望使用 RAID 阵列进行缓存，请安装 nvidia-conf-cachefilesd。这将更新 cachefilesd 配置以使用 /raid 分区。
```
sudo dnf install -y nvidia-conf-cachefilesd
```
安装 NVIDIA CUDA 驱动程序。

将以下命令中的 525 值替换为您要安装的 NVIDIA GPU 驱动程序分支。有关支持的驱动程序分支的信息，请参阅NVIDIA DGX Software for Red Hat Enterprise Linux 8 发行说明。

如果您需要安装与特定 CUDA 库版本对应的驱动程序，请参阅NVIDIA 驱动程序文档中的驱动程序发行说明。发行说明中的 CUDA Toolkit 版本标识了 CUDA 版本。

重要提示

如果您要从本地仓库安装 CUDA 驱动程序，请按照从本地仓库安装 NVIDIA CUDA 驱动程序中的说明进行操作，而不是此步骤。
- 可选：列出可用的驱动程序模块。
```
sudo dnf module list nvidia-driver
```
- 对于非 NVSwitch 系统，例如 DGX-1、DGX Station 和 DGX Station A100，请使用 default 和 src 配置文件安装驱动程序。
```
sudo dnf module install --nobest -y nvidia-driver:525/{default,src}
sudo dnf install -y nv-persistence-mode libnvidia-nscq-525
```
- 对于 NVSwitch 系统，例如 DGX-2 和 DGX A100/A800，请使用 fabric manager (fm) 和 src 配置文件安装驱动程序。
```
sudo dnf module install --nobest -y nvidia-driver:525/{fm,src}
sudo dnf install -y nv-persistence-mode nvidia-fm-enable
```
- 对于 DGX H100，请使用 fabric manager (fm) 配置文件安装 DKMS 版本的驱动程序
```
sudo dnf module install --nobest -y nvidia-driver:535-dkms/fm
sudo dnf install -y nv-persistence-mode nvidia-fm-enable
```
（仅限 DGX Station A100/A800）安装 DGX Station A100 和 DGX Station A800 所需的其他软件包。

必须在安装 nvidia-driver 模块后安装这些软件包。
```
sudo dnf install -y nvidia-conf-xconfig nv-docker-gpus
```

重启系统以加载驱动程序并更新系统配置。

发出重启命令。
```
sudo reboot
```

系统重启后，验证驱动程序是否已加载并正在处理 NVIDIA 设备。

nvidia-smi

输出示例

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
| N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
| N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
...
+-------------------------------+----------------------+----------------------+
|   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
| N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

安装 NVIDIA 容器设备插件。

安装 docker-ce。

由于这可能会与系统上现有的软件包冲突，请指定 --allowerasing 选项
```
sudo dnf install -y docker-ce --allowerasing
```

安装 NVIDIA Container Runtime 组。

sudo dnf group install -y 'NVIDIA Container Runtime'

重启 docker 守护程序。
```
sudo systemctl restart docker
```

运行以下命令以验证安装。

sudo docker run --gpus=all --rm nvcr.io/nvidia/cuda:12.0.0-base-ubi8 nvidia-smi

有关此命令的更多信息，请参阅运行容器部分。

输出示例

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
| N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
| N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
...
+-------------------------------+----------------------+----------------------+
|   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
| N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------

另一个必需软件组件的安装在使用 NVIDIA Mellanox InfiniBand 驱动程序中进行了解释。

安装可选组件#

在按照安装必需组件中的描述安装组件后，DGX 即可完全正常运行。如果您打算在 DGX 系统上启动 NGC 容器（其中包含 CUDA toolkit、NCCL、cuDNN 和 TensorRT），这是预期的用例，则可以跳过本节。

如果您打算将 DGX 系统用作在裸机上运行深度学习应用程序的开发系统，则请按照本节中的描述安装可选组件。

要安装 CUDA Toolkit 12.0，请发出以下命令。

$ sudo dnf install -y cuda-toolkit-12-0 cuda-compat-12-0 nvidia-cuda-compat-setup

要管理自加密驱动器，请安装 nv-disk-encrypt 软件包，发出以下命令。
```
$ sudo dnf install -y nv-disk-encrypt
$ sudo reboot
```
有关使用信息，请参阅DGX A100/A800 用户指南中的“管理自加密驱动器”部分。
要安装 NVIDIA Collectives Communication Library (NCCL) 运行时，请参阅NCCL：入门文档。
要安装 CUDA 深度神经网络 (cuDNN) 库运行时，请参阅 NVIDIA cuDNN 页面。
要安装 NVIDIA TensorRT，请参阅 NVIDIA TensorRT 页面。
要安装 NVIDIA GPUDirect Storage (GDS)，请发出以下命令以安装 GDS 软件包。
```
$ sudo dnf install nvidia-gds
```
如果您安装了 MLNX_OFED 驱动程序，请务必在其中启用 GDS。请参阅使用 NVIDIA Mellanox InfiniBand 驱动程序。

安装可选的 NVIDIA 桌面主题#

DGX 软件仓库还提供可选的主题软件包和桌面壁纸，以使用户界面具有 NVIDIA 的外观和风格。这些软件包本应作为DGX Station 配置组的一部分安装，但用户也可以手动安装此软件包

要应用主题和背景图像，请首先打开 gnome-tweaks。
在应用程序下，选择 NV-Yaru 主题之一。

这有默认、浅色和深色变体。
在Shell 下，选择 NV-Yaru-dark 主题。

如果此字段灰显，您可能需要重启系统或重启 GDM 才能启用 user-themes 扩展。

要重启 GDM，请发出以下命令。
```
sudo systemctl restart gdm
```
为背景图像和锁屏选择 NVIDIA 壁纸之一。