使用本地仓库安装#

作为 创建 NVIDIA 仓库的本地镜像 中描述方法的替代方案,DGX 软件也可以使用本地仓库进行安装。这些仓库由 NVIDIA 提供,用于从本地仓库安装所需的软件包,允许在没有网络访问的情况下安装软件包。

安装基础 Red Hat Enterprise Linux 系统#

软件的 Red Hat 组件必须使用标准的基于网络的安装方式安装,或者按照 在“气隙”系统上安装 中所述的方式安装。这包括注册和订阅 Red Hat 客户门户。

如果系统已连接到网络,请按照标准的 Red Hat Enterprise Linux 安装步骤进行操作,然后启用额外的 Red Hat 仓库。最后,执行

sudo dnf update -y
sudo dnf install -y kernel-devel kernel-headers
sudo reboot

如果系统未连接到网络,请按照 创建 NVIDIA 仓库的本地镜像 中的说明进行操作

下载本地仓库#

下载适用于您版本的软件包。

版本 EL9-24.12#

版本 EL9-24.06#

版本 EL9-23.12#

版本 EL9-23.08#

版本 EL9-23.01#

安装本地仓库#

安装本地仓库

sudo dnf install -y ./dgx-local-repo-24.12-8.el9.x86_64.rpm
sudo dnf install -y ./nvidia-driver-local-repo-rhel9-535.216.03-1.0-1.x86_64.rpm
sudo dnf install -y ./cuda-repo-rhel9-12-2-local-12.2.2_535.104.05-1.x86_64.rpm

安装本地仓库后,继续执行标准的 安装 DGX 软件 说明,但 CUDA 驱动程序安装除外。要从本地仓库安装 CUDA 驱动程序,请按照下一节 从本地仓库安装 NVIDIA CUDA 驱动程序 中的步骤进行操作。

从本地仓库安装 NVIDIA CUDA 驱动程序#

  • 对于非 NVSwitch 系统,例如 DGX-1、DGX Station 和 DGX Station A100,请使用默认配置文件安装驱动程序

    sudo dnf module install -y nvidia-driver:535-dkms
    sudo dnf install -y --allowerasing nv-persistence-mode libnvidia-nscq-535
    
  • 对于 NVSwitch 系统,例如 DGX-2、DGX A100、DGX A800 和 DGX H100/H200,请使用 Fabric Manager (fm) 配置文件安装驱动程序

    注意

    将 GPU 驱动程序的 535 版本替换为您要安装的版本系列。DGX H200 系统要求 GPU 驱动程序版本为 550 或更高版本。

    sudo dnf module install -y nvidia-driver:535-dkms/fm
    sudo dnf install -y nv-persistence-mode nvidia-fm-enable