安装 DGX 软件#

本节要求您已在 DGX 系统上安装了 Red Hat Enterprise Linux 8 或衍生操作系统。如果您已经在 kickstart 安装期间安装了 DGX 软件堆栈,则可以跳过本节。

配置系统代理#

如果您的网络需要使用代理,则

  • 编辑文件 /etc/dnf/dnf.conf 并确保 [main] 部分中存在以下行,使用适用于您网络的参数

    proxy=http://<Proxy-Server-IP-Address>:<Proxy-Port>
    proxy_username=<Proxy-User-Name>
    proxy_password=<Proxy-Password>
    

启用 DGX 软件仓库#

注意

通过运行这些命令,您确认已阅读并同意受DGX 软件许可协议的约束。您还确认您理解,您选择在 DGX 中安装的任何预发布软件和材料可能无法完全正常运行,可能包含错误或设计缺陷,并且相对于 NVIDIA 软件和材料的商业版本,可能具有降低的或不同的安全性、隐私性、可用性和可靠性标准,并且您使用预发布版本需自行承担风险。

安装 Red Hat Enterprise Linux 的 NVIDIA DGX 软件包。

sudo dnf install -y https://repo.download.nvidia.com/baseos/el/el-files/8/nvidia-repo-setup-21.06-1.el8.x86_64.rpm

安装必需组件#

  1. 在 Red Hat Enterprise Linux 上,运行以下命令以启用 DGX 软件所需的其他仓库。

    sudo subscription-manager repos --enable=rhel-8-for-x86_64-appstream-rpms
    sudo subscription-manager repos --enable=rhel-8-for-x86_64-baseos-rpms
    sudo subscription-manager repos --enable=codeready-builder-for-rhel-8-x86_64-rpms
    
  2. 升级到最新软件。

    注意

    在执行升级之前,请查阅发行说明,了解根据特定 EL8 发行版的其他说明。

    sudo dnf update -y --nobest
    
  3. 安装 DGX 工具和配置文件。

    • 对于 DGX-1,安装DGX-1 配置

      sudo dnf group install -y 'DGX-1 Configurations'
      
    • 对于 DGX-2,安装DGX-2 配置

      sudo dnf group install -y 'DGX-2 Configurations'
      
    • 对于 DGX A100,安装DGX A100 配置

      sudo dnf group install -y 'DGX A100 Configurations'
      
    • 对于 DGX H100,安装DGX H100 配置

    sudo dnf group install -y 'DGX H100 Configurations'
    
    • 对于 DGX A800,安装DGX A800 配置

      sudo dnf group install -y 'DGX A800 Configurations'
      
    • 对于 DGX Station,安装DGX Station 配置

      sudo dnf group install -y 'DGX Station Configurations'
      
    • 对于 DGX Station A100,安装DGX Station A100 配置

      sudo dnf group install -y 'DGX Station A100 Configurations'
      
    • 对于 DGX Station A800,安装DGX Station A800 配置

      sudo dnf group install -y 'DGX Station A800 Configurations'
      

    配置更改仅在系统重启后生效,重启将在安装 CUDA 驱动程序后执行。

  4. 配置 /raid 分区。

    所有 DGX 系统都支持 RAID 0 或 RAID 5 阵列。

    以下命令创建 RAID 阵列,将其挂载到 /raid 并在 /etc/fstab 中创建适当的条目。

    • 要创建 RAID 0 阵列

      sudo /usr/bin/configure_raid_array.py -c -f
      
    • 要创建 RAID 5 阵列

      sudo /usr/bin/configure_raid_array.py -c -f -5
      

    注意

    必须在安装 nvidia-conf-cachefilesd 之前配置 RAID 阵列,这会将正确的 SELinux 标签放在 /raid 目录上。如果您需要在安装 nvidia-conf-cachefilesd 后重新创建 RAID 阵列(这将清除 /raid 上的任何标签),请务必在重启 cachefilesd 之前手动恢复标签。

    sudo restorecon /raid
    sudo systemctl restart cachefilesd
    

    可选:如果您希望使用 RAID 阵列进行缓存,请安装 nvidia-conf-cachefilesd。这将更新 cachefilesd 配置以使用 /raid 分区。

    sudo dnf install -y nvidia-conf-cachefilesd
    
  5. 安装 NVIDIA CUDA 驱动程序。

    将以下命令中的 525 值替换为您要安装的 NVIDIA GPU 驱动程序分支。有关支持的驱动程序分支的信息,请参阅NVIDIA DGX Software for Red Hat Enterprise Linux 8 发行说明

    如果您需要安装与特定 CUDA 库版本对应的驱动程序,请参阅NVIDIA 驱动程序文档中的驱动程序发行说明。发行说明中的 CUDA Toolkit 版本标识了 CUDA 版本。

    重要提示

    如果您要从本地仓库安装 CUDA 驱动程序,请按照从本地仓库安装 NVIDIA CUDA 驱动程序中的说明进行操作,而不是此步骤。

    • 可选:列出可用的驱动程序模块。

      sudo dnf module list nvidia-driver
      
    • 对于非 NVSwitch 系统,例如 DGX-1、DGX Station 和 DGX Station A100,请使用 default 和 src 配置文件安装驱动程序。

      sudo dnf module install --nobest -y nvidia-driver:525/{default,src}
      sudo dnf install -y nv-persistence-mode libnvidia-nscq-525
      
    • 对于 NVSwitch 系统,例如 DGX-2 和 DGX A100/A800,请使用 fabric manager (fm) 和 src 配置文件安装驱动程序。

      sudo dnf module install --nobest -y nvidia-driver:525/{fm,src}
      sudo dnf install -y nv-persistence-mode nvidia-fm-enable
      
    • 对于 DGX H100,请使用 fabric manager (fm) 配置文件安装 DKMS 版本的驱动程序

      sudo dnf module install --nobest -y nvidia-driver:535-dkms/fm
      sudo dnf install -y nv-persistence-mode nvidia-fm-enable
      
  6. (仅限 DGX Station A100/A800)安装 DGX Station A100 和 DGX Station A800 所需的其他软件包。

    必须在安装 nvidia-driver 模块后安装这些软件包。

    sudo dnf install -y nvidia-conf-xconfig nv-docker-gpus
    
  7. 重启系统以加载驱动程序并更新系统配置。

    1. 发出重启命令。

      sudo reboot
      
    2. 系统重启后,验证驱动程序是否已加载并正在处理 NVIDIA 设备。

      nvidia-smi
      

      输出示例

      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
      | N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      |   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
      | N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      ...
      +-------------------------------+----------------------+----------------------+
      |   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
      | N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------------------------------------------------+
      
  8. 安装 NVIDIA 容器设备插件。

    1. 安装 docker-ce

      由于这可能会与系统上现有的软件包冲突,请指定 --allowerasing 选项

      sudo dnf install -y docker-ce --allowerasing
      
    2. 安装 NVIDIA Container Runtime 组。

      sudo dnf group install -y 'NVIDIA Container Runtime'
      
    3. 重启 docker 守护程序。

      sudo systemctl restart docker
      
    4. 运行以下命令以验证安装。

      sudo docker run --gpus=all --rm nvcr.io/nvidia/cuda:12.0.0-base-ubi8 nvidia-smi
      

      有关此命令的更多信息,请参阅运行容器部分。

      输出示例

      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 525.125.06   Driver Version: 525.125.06   CUDA Version: 12.0     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
      |                               |                      |               MIG M. |
      |===============================+======================+======================|
      |   0  Tesla V100-SXM2...  On   | 00000000:06:00.0 Off |                    0 |
      | N/A   35C    P0    42W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      |   1  Tesla V100-SXM2...  On   | 00000000:07:00.0 Off |                    0 |
      | N/A   35C    P0    44W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      ...
      +-------------------------------+----------------------+----------------------+
      |   7  Tesla V100-SXM2...  On   | 00000000:8A:00.0 Off |                    0 |
      | N/A   35C    P0    43W / 300W |      0MiB / 16160MiB |      0%      Default |
      |                               |                      |                  N/A |
      +-------------------------------+----------------------+----------------------+
      
      +-----------------------------------------------------------------------------+
      | Processes:                                                                  |
      |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
      |        ID   ID                                                   Usage      |
      |=============================================================================|
      |  No running processes found                                                 |
      +-----------------------------------
      

另一个必需软件组件的安装在使用 NVIDIA Mellanox InfiniBand 驱动程序中进行了解释。

安装可选组件#

在按照安装必需组件中的描述安装组件后,DGX 即可完全正常运行。如果您打算在 DGX 系统上启动 NGC 容器(其中包含 CUDA toolkit、NCCL、cuDNN 和 TensorRT),这是预期的用例,则可以跳过本节。

如果您打算将 DGX 系统用作在裸机上运行深度学习应用程序的开发系统,则请按照本节中的描述安装可选组件。

  • 要安装 CUDA Toolkit 12.0,请发出以下命令。

    $ sudo dnf install -y cuda-toolkit-12-0 cuda-compat-12-0 nvidia-cuda-compat-setup
    
  • 要管理自加密驱动器,请安装 nv-disk-encrypt 软件包,发出以下命令。

    $ sudo dnf install -y nv-disk-encrypt
    $ sudo reboot
    

    有关使用信息,请参阅DGX A100/A800 用户指南中的“管理自加密驱动器”部分。

  • 要安装 NVIDIA Collectives Communication Library (NCCL) 运行时,请参阅NCCL:入门文档。

  • 要安装 CUDA 深度神经网络 (cuDNN) 库运行时,请参阅 NVIDIA cuDNN 页面。

  • 要安装 NVIDIA TensorRT,请参阅 NVIDIA TensorRT 页面。

  • 要安装 NVIDIA GPUDirect Storage (GDS),请发出以下命令以安装 GDS 软件包。

    $ sudo dnf install nvidia-gds
    

    如果您安装了 MLNX_OFED 驱动程序,请务必在其中启用 GDS。请参阅使用 NVIDIA Mellanox InfiniBand 驱动程序

安装可选的 NVIDIA 桌面主题#

DGX 软件仓库还提供可选的主题软件包和桌面壁纸,以使用户界面具有 NVIDIA 的外观和风格。这些软件包本应作为DGX Station 配置组的一部分安装,但用户也可以手动安装此软件包

  1. 要应用主题和背景图像,请首先打开 gnome-tweaks。

  2. 应用程序下,选择 NV-Yaru 主题之一。

    这有默认、浅色和深色变体。

  3. Shell 下,选择 NV-Yaru-dark 主题。

    如果此字段灰显,您可能需要重启系统或重启 GDM 才能启用 user-themes 扩展。

    要重启 GDM,请发出以下命令。

    sudo systemctl restart gdm
    
  4. 为背景图像和锁屏选择 NVIDIA 壁纸之一。

    _images/desktop-theme-wallpaper.jpg