在气隙 NVIDIA DGX 系统上安装软件#

在 DGX 系统上安装 Red Hat Enterprise Linux 时,DGX 系统所需的许多软件包都通过互联网从 Red Hat 和 NVIDIA 服务器下载。这不适用于必须“气隙隔离”的严密安全系统;即与互联网或外部网络隔离的系统。

由于大多数 DGX 软件更新都是通过与 NVIDIA 服务器的网络连接过程完成的,因此本节将介绍在使用网络连接方法不可行时如何进行更新。它还包括安装容器的流程。

.

注册您的系统#

请参阅 Red Hat 客户门户知识库文章 How to register and subscribe a system offline to the Red Hat Customer Portal

创建 NVIDIA 仓库的本地镜像#

本节介绍复制仓库的一般步骤,以及复制 NVIDIA 提供的 DGX 特定软件软件仓库的示例。

Red Hat 客户门户提供了一篇关于创建本地镜像的知识库文章。请特别注意使用 Red Hat Enterprise Linux 8 创建本地仓库下的说明。 reposync 命令现在也可以下载仓库元数据,因此不再需要之后使用 createrepo。

需要镜像的仓库包括

  • rhel-8-for-x86_64-appstream-rpms

  • rhel-8-for-x86_64-baseos-rpms

  • codeready-builder-for-rhel-8-x86_64-rpms

  • nvidia-dgx-8

  • CUDA

镜像完成后,请务必配置目标系统以使用您的本地仓库。这可以通过在 /etc/yum.repos.d/my_mirror.repo 下创建文件并包含以下内容来完成

[nvidia-dgx-8]
name=NVIDIA DGX EL8
baseurl=file://path/to/your/nvidia-dgx-8-repo-mirror/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-dgx-cosmos-support

[CUDA]
name=NVIDIA CUDA for EL8
baseurl=file://path/to/your/CUDA-repo-mirror/
enabled=1
gpgcheck=1
gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-cuda

注意

这些说明假设您已在本地计算机上启用了仓库。有关启用 NVIDIA DGX EL8 仓库的说明,请参阅启用 DGX 软件仓库

安装 Docker 容器#

此方法适用于 NGC 容器注册表上托管的 Docker 容器。大多数容器镜像都是免费提供的,但有些是锁定的,需要您拥有 NGC 帐户才能访问。 有关访问锁定的容器镜像的说明,请参阅 NGC Private Registry User Guide

  1. 输入 docker pull 命令,指定镜像注册表、镜像仓库和标签。

    docker pull nvcr.io/nvidia/repository:tag
    
  2. 使用 docker images 验证镜像是否在您的系统上。

    docker images
    
  3. 将 Docker 镜像另存为存档。

    docker save nvcr.io/nvidia/repository:tag > framework.tar
    
  4. 使用可移动介质(如 USB 闪存驱动器)将镜像传输到气隙隔离的系统。

  5. 加载 NVIDIA Docker 镜像。

    docker load -i framework.tar
    
  6. 验证镜像是否在您的系统上。

    docker images