安装 DGX 软件

本节要求您已在 DGX 系统上安装 CentOS 8 或衍生操作系统。如果您在 kickstart 安装期间已安装 DGX 软件堆栈,则可以跳过本节。

配置系统代理

如果您的网络需要使用代理,则
  • 编辑文件 /etc/dnf/dnf.conf 并确保以下行存在于 [main] 部分中,使用适用于您网络的参数
    proxy=http://<Proxy-Server-IP-Address>:<Proxy-Port>
    proxy_username=<Proxy-User-Name>
    proxy_password=<Proxy-Password>

启用 DGX 软件存储库

注意:运行这些命令即表示您确认已阅读并同意遵守 DGX 软件许可协议。您还确认您理解,您选择在 DGX 中安装的任何预发布软件和材料可能无法完全正常运行,可能包含错误或设计缺陷,并且可能相对于 NVIDIA 软件和材料的商业版本而言,在安全性、隐私性、可用性和可靠性标准方面有所降低或不同,并且您需自行承担使用预发布版本的风险。
安装适用于 Red Hat Enterprise Linux 的 NVIDIA DGX 软件包。
$ sudo dnf install -y https://repo.download.nvidia.com/baseos/el/el-files/8/nvidia-repo-setup-21.06-1.el8.x86_64.rpm

安装必需组件

  1. 升级到最新软件。
    重要提示: 在执行升级之前,请查阅发行说明,了解根据特定 EL8 版本提供的其他说明。
    sudo dnf update -y --nobest
  2. 安装 DGX 工具和配置文件。
    • 对于 DGX-1,安装 DGX-1 配置
      sudo dnf group install -y 'DGX-1 Configurations'
    • 对于 DGX-2,安装 DGX-2 配置
      sudo dnf group install -y 'DGX-2 Configurations' 
    • 对于 DGX A100,安装 DGX A100 配置
      sudo dnf group install -y 'DGX A100 Configurations'
    • 对于 DGX Station,安装 DGX Station 配置
      sudo dnf group install -y 'DGX Station Configurations'
    • 对于 DGX Station A100,安装 DGX Station A100 配置
      sudo dnf group install -y 'DGX Station A100 Configurations'

    配置更改仅在重启系统后生效,重启将在安装 CUDA 驱动程序后执行。

  3. 配置 /raid 分区。

    所有 DGX 系统都支持 RAID 0 或 RAID 5 阵列。

    以下命令创建一个 RAID 阵列,将其挂载到 /raid 并在 /etc/fstab 中创建一个适当的条目。
    • 要创建 RAID 0 阵列
      sudo /usr/bin/configure_raid_array.py -c -f
    • 要创建 RAID 5 阵列
      sudo /usr/bin/configure_raid_array.py -c -f -5
    注意: RAID 阵列必须在安装 nvidia-conf-cachefilesd 之前配置,这将把正确的 SELinux 标签放在 /raid 目录上。如果您需要在安装 nvidia-conf-cachefilesd 之后重新创建 RAID 阵列(这将擦除 /raid 上的任何标签),请务必在重启 cachefilesd 之前手动恢复标签。
    sudo restorecon /raid
    sudo systemctl restart cachefilesd
    可选:如果您希望将 RAID 阵列用于缓存,请安装 nvidia-conf-cachefilesd。这将更新 cachefilesd 配置以使用 /raid 分区。
    sudo dnf install -y nvidia-conf-cachefilesd
  4. 安装 NVIDIA CUDA 驱动程序。
    1. 对于非 NVSwitch 系统(如 DGX-1、DGX Station 和 DGX Station A100),使用 default 和 src 配置文件安装 R450 或 R470 驱动程序

      安装 R450 驱动程序

      sudo dnf module install -y nvidia-driver:450/{default.src}
      sudo dnf install -y nv-persistence-mode libnvidia-nscq-450
      安装 R470 驱动程序
      sudo dnf module install -y nvidia-driver:470/{default,src}
      sudo dnf install -y nv-persistence-mode libnvidia-nscq-470
    2. 对于 NVSwitch 系统(如 DGX-2 和 DGX A100),使用 fabric manager (fm) 和 src 配置文件安装 R450 或 R470 驱动程序

      安装 R450 驱动程序

      sudo dnf module install -y nvidia-driver:450/{fm,src}
      sudo dnf install -y nv-persistence-mode nvidia-fm-enable

      安装 R470 驱动程序

      sudo dnf module install -y nvidia-driver:470/{fm,src}
      sudo dnf install -y nv-persistence-mode nvidia-fm-enable
  5. (仅限 DGX Station A100)安装 DGX Station A100 所需的其他软件包。

    这些软件包必须在安装 nvidia-driver 模块后安装。

    sudo dnf install -y nvidia-conf-xconfig nv-docker-gpus
  6. 重启系统以加载驱动程序并更新系统配置。
    1. 执行重启。
      sudo reboot
    2. 系统重启后,验证驱动程序已加载并正在处理 NVIDIA 设备。
      nvidia-smi

      输出应显示所有可用的 GPU。

      示例:
      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.0     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
      | N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      |   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
      | N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      ...
      +-------------------------------+----------------------+----------------------+
      |   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
      | N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      
  7. 安装 NVIDIA 容器设备插件。
    1. 安装 docker-ce 由于这可能与系统上现有的软件包冲突,请指定 --allowerasing 选项
      sudo dnf install -y docker-ce --allowerasing
    2. 安装 NVIDIA 容器运行时
      sudo dnf group install -y 'NVIDIA Container Runtime'
    3. 重启 docker 守护进程。
      sudo systemctl restart docker
    4. 运行以下命令以验证安装。
      sudo docker run --gpus=all --rm nvcr.io/nvidia/cuda:11.0-base nvidia-smi

      有关此命令的更多信息,请参阅 运行容器 部分。

      输出应显示所有可用的 GPU

      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
      | N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      |   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
      | N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      ...
      +-------------------------------+----------------------+----------------------+
      |   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
      | N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------
另一个必需软件组件的安装在 使用 NVIDIA Mellanox InfiniBand 驱动程序 中进行了解释。

安装可选组件

在安装 安装必需组件 中描述的组件后,DGX 即可完全正常运行。如果您打算在 DGX 系统上启动 NGC 容器(其中包含 CUDA 工具包、NCCL、cuDNN 和 TensorRT),这是预期的用例,则可以跳过本节。
如果您打算将 DGX 系统用作开发系统,以在裸机上运行深度学习应用程序,请安装本节中描述的可选组件。
  • 要安装 CUDA Toolkit 11.2,请执行以下操作。
    $ sudo dnf install -y cuda-toolkit-11-2 cuda-compat-11-2 nvidia-cuda-compat-setup
  • 要管理自加密驱动器,请安装 nv-disk-encrypt 软件包,执行以下操作。
    $ sudo dnf install -y nv-disk-encrypt
    $ sudo reboot
    有关使用信息,请参阅 DGX A100 用户指南 中的“管理自加密驱动器”部分。
  • 要安装 NVIDIA 集体通信库 (NCCL) 运行时,请参阅 NCCL:Getting Started 文档。
  • 要安装 CUDA 深度神经网络 (cuDNN) 库运行时,请参阅 NVIDIA cuDNN 页面。
  • 要安装 NVIDIA TensorRT,请参阅 NVIDIA TensorRT 页面。
  • 要安装 NVIDIA GPUDirect Storage (GDS),请执行以下操作以安装 GDS 软件包。
    $ sudo dnf install nvidia-gds
    如果您安装了驱动程序,请确保在 MLNX_OFED 驱动程序中启用 GDS。请参阅 使用 NVIDIA Mellanox InfiniBand 驱动程序

安装可选的 NVIDIA 桌面主题

DGX 软件存储库还提供可选的主题包和桌面壁纸,以使用户界面具有 NVIDIA 的外观。这些软件包本应作为 DGX Station 配置 组的一部分安装,但用户也可以手动安装它

  1. 要应用主题和背景图像,请首先打开 gnome-tweaks。
  2. 应用程序 下,选择 NV-Yaru 主题之一。 这有默认、浅色和深色变体。
  3. Shell 下,选择 NV-Yaru-dark 主题。

    如果此字段灰显,您可能需要重启系统或重启 GDM 才能启用 user-themes 扩展。

    要重启 GDM,请执行以下操作。
    sudo systemctl restart gdm
  4. 为背景图像和锁定屏幕选择 NVIDIA 壁纸之一。