更新和恢复软件#

本节介绍如何在您的 DGX A100 系统上更新或恢复软件。

更新 DGX A100 软件#

您必须注册您的 DGX A100 系统,以便在新软件更新可用时接收电子邮件通知。

这些说明解释了如何通过互联网连接到 NVIDIA 公共存储库来更新 DGX A100 软件。此过程将 DGX A100 系统映像更新到整个 DGX A100 软件堆栈(包括驱动程序)的最新发布版本,以获得特定版本内的最新版本。

有关从一个版本升级到另一个版本(例如,从版本 4 升级到版本 5)的说明,请参阅 DGX OS 5 用户指南

软件更新的连接要求#

在尝试执行更新之前,请验证 DGX A100 系统网络连接是否可以访问公共存储库,并且连接未被防火墙或代理阻止。

在 DGX A100 系统上输入以下内容。

$ wget -O f1-changelogs http://changelogs.ubuntu.com/meta-release-lts
$ wget -O f1-changelogs http://changelogs.ubuntu.com/meta-release-lts
$ wget -O f2-archive http://archive.ubuntu.com/ubuntu/dists/bionic/Release
$ wget -O f3-usarchive http://us.archive.ubuntu.com/ubuntu/dists/bionic/Release
$ wget -O f4-security http://security.ubuntu.com/ubuntu/dists/bionic/Release
$ wget -O f5-download http://download.docker.com/linux/ubuntu/dists/bionic/Release
$ wget -O f6-international http://international.download.nvidia.com/dgx/repos/bionic/
dists/bionic/Release
$ wget -O f7-focal-repo https://repo.download.nvidia.com/baseos/ubuntu/focal/x86_64/dists/focal/Release
All the wget commands should be successful and there should be seven files in the directory with non-zero content.

更新说明#

以下是在您的 DGX A100 系统上更新软件的步骤。

注意

这些说明更新所有可从您配置的软件源获得的软件更新,包括您自己安装的应用程序。 如果您想阻止应用程序被更新,您可以指示 Ubuntu 包管理器保留当前版本。 有关更多信息,请参阅 简介

使用 DGX A100 控制台上的命令执行更新。

  1. 运行包管理器。

    $ sudo apt update
    
  2. 检查哪些软件将被更新。

    $ sudo apt full-upgrade -s
    

    要阻止应用程序被更新,请指示 Ubuntu 包管理器保留当前版本。 请参阅“软件包保留简介”。

  3. 升级到最新版本。

    $ sudo apt full-upgrade
    
  4. 回答出现的任何问题。

    大多数问题需要回答“是”或“否”。 如果要求选择要使用的 grub 配置,请选择系统上当前的配置。

    其他问题将取决于更新之前安装的其他软件包以及这些软件包如何与更新交互。 通常,在提示时您可以接受默认选项。

  5. 重启系统。

恢复 DGX A100 软件映像#

如果 DGX A100 软件映像损坏或 OS SSD 在故障后被更换,请从映像的原始副本中将 DGX A100 软件映像恢复到其原始出厂状态。

恢复 DGX A100 软件映像的过程如下

  1. 从 NVIDIA 企业支持获取包含映像的 ISO 文件,如 获取 DGX A100 软件 ISO 映像和校验和文件 中所述。

  2. 通过 BMC 远程或通过可启动 USB 闪存驱动器本地从此文件恢复 DGX A100 软件映像。

注意

DGX OS Server 软件恢复到两个 NMVe M.2 驱动器之一。 当系统在恢复映像后启动时,软件 RAID 开始重建 RAID 1 阵列的过程 - 创建包含软件的驱动器的镜像(或重新同步)。 系统性能可能会在 RAID 1 重建过程中受到影响,这可能需要一个小时才能完成。

获取 DGX A100 软件 ISO 映像和校验和文件#

为确保您恢复最新可用的 DGX A100 软件映像版本,请从 NVIDIA 企业支持获取当前的 ISO 映像文件。 映像附带校验和文件,使您能够验证从映像文件创建的可启动安装介质。

  1. 登录到 NVIDIA 企业支持 网站。

  2. 单击 公告 选项卡以找到 DGX A100 软件映像的下载链接。

  3. 下载 ISO 映像及其校验和文件,并将它们保存到您的本地磁盘。

    在 ISO 映像上运行校验和或哈希实用程序,并将结果值与校验和文件中的值进行比较,以验证 ISO 文件。

    ISO 映像也以存档文件形式提供。 如果您下载存档文件,请务必在继续之前提取 ISO 映像。

远程重新映像系统#

这些说明描述了如何通过 BMC 远程重新映像系统。 有关如何本地恢复系统的信息,请参阅 从 USB 闪存驱动器重新映像系统

在远程重新映像系统之前,请确保正确的 DGX A100 软件映像已保存到您的本地磁盘。 有关更多信息,请参阅 获取 DGX A100 软件 ISO 映像和校验和文件

  1. 登录到 BMC。

  2. 单击 远程控制,然后单击 启动 KVM。

  3. 将 ISO 映像设置为虚拟介质。

    1. 从顶部栏中,单击 浏览文件,然后找到重新映像 ISO 文件,并单击 打开。

    2. 单击 启动介质。

  4. 重启、安装映像并完成 DGX A100 系统设置。

    1. 从顶部菜单中,单击 电源,然后选择 重置服务器。

    2. 在电源控制对话框中单击 确定,然后等待系统断电并重新联机。

    3. 当系统启动时,当 NVIDIA 徽标出现时按 [F11] 进入启动菜单。

    4. 浏览以找到与插入的 ISO 对应的虚拟 CD,然后从中启动系统。

    5. 当系统启动时,从 GRUB 菜单中选择以下选项之一

      • 安装 DGX OS <版本>:安装 DGX OS 并重新格式化数据 RAID

      • 安装 DGX OS <版本>,但不重新格式化数据 RAID

      • 高级安装选项:如果您想使用加密的根文件系统进行安装,请选择以下选项之一

        • 安装 DGX OS <版本> 并加密根目录

        • 安装 DGX OS <版本>,加密根目录,但不重新格式化数据 RAID

      如果您是未使用 RAID 磁盘作为缓存并且想要保留 RAID 磁盘上的数据的高级用户,请选择“不重新格式化数据 RAID”选项之一。 有关更多信息,请参阅“安装 OS 时保留 RAID 分区”部分。

    6. 按 Enter 键。

DGX A100 系统将从 ISO 映像重启并继续安装映像。 这可能需要大约 15 分钟。

注意

Mellanox InfiniBand 驱动程序安装可能需要长达 30 分钟,具体取决于有多少卡进行固件更新。

安装完成后,系统弹出虚拟 CD,然后重启进入 OS。

有关在全新安装后首次启动 DGX A100 系统时要采取的步骤,请参阅 首次启动设置

创建可启动安装介质#

从 NVIDIA 企业支持获得包含 DGX OS Server 软件映像的 ISO 文件后,创建一个包含该映像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。

注意

如果您要通过 BMC 远程恢复软件映像,则不需要可启动安装介质,并且可以省略此任务。

  • 如果您要创建可启动 USB 闪存驱动器,请按照您正在使用的平台的说明进行操作

  • 如果您要创建可启动 DVD-ROM,您可以使用 Ubuntu 社区帮助 Wiki 上的 将 ISO 刻录到 DVD 中描述的任何方法。

    注意

    对于某些 DGX OS Server 版本,包含软件映像的 ISO 文件大于单层 DVD-ROM 的 4.7 GB 容量。 您无法从可启动 DVD-ROM 安装这些版本,因为 支持从双层 DVD-ROM 安装 DGX OS Server。 在创建可启动 DVD-ROM 之前,请检查包含 DGX OS Server 软件映像的 ISO 文件的大小。

先决条件#

确保满足以下先决条件

  • 正确的 DGX OS 软件映像已保存到您的本地磁盘。

    有关更多信息,请参阅 获取软件 ISO 映像和校验和文件

  • USB 闪存驱动器必须满足以下要求

    • USB 闪存驱动器的容量必须至少为 16 GB。

    • USB 闪存驱动器上的分区方案是 UEFI 的 GPT 分区方案。

使用 dd 命令创建可启动 USB 闪存驱动器#

在 Linux 系统上,您可以使用 dd 命令创建包含 DGX OS 软件映像的可启动 USB 闪存驱动器。

注意

为确保生成的闪存驱动器是可启动的,请使用 dd 命令对映像执行设备位复制。 如果您使用其他命令对映像执行简单的文件复制,则生成的闪存驱动器可能无法启动。

  1. 将 USB 闪存驱动器插入 Linux 系统的 USB 端口之一。

  2. 通过运行 lsblk 命令获取 USB 闪存驱动器的设备名称。

    $ lsblk
    

    您可以根据 USB 闪存驱动器的大小(远小于 DGX 软件中 SSD 的大小)以及驱动器上任何分区的挂载点(在 /media 下)来识别它。

    在以下示例输出中,USB 闪存驱动器的设备名称为 sde

    NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
    sda      8:0    0   1.8T  0 disk
    |_sda1   8:1    0   121M  0 part /boot/efi
    |_sda2   8:2    0   1.8T  0 part /
    sdb      8:16   0   1.8T  0 disk
    |_sdb1   8:17   0   1.8T  0 part
    sdc      8:32   0   1.8T  0 disk
    sdd      8:48   0   1.8T  0 disk
    sde      8:64   1   7.6G  0 disk
    |_sde1   8:65   1   7.6G  0 part /media/deeplearner/DGXSTATION
    
  3. 以 root 用户身份,转换并将映像复制到 USB 闪存驱动器。

    $ sudo dd if=<path-to-software-image> bs=2048 of=<usb-drive-device-name>
    

    注意

    dd 命令会擦除您在命令的 of 选项中指定的设备上的所有数据。 为避免数据丢失,请确保您指定了 USB 闪存驱动器的正确路径。

使用 Akeo Rufus 创建可启动 USB 闪存驱动器#

在 Windows 系统上,您可以使用 Akeo Reliable USB Formatting Utility (Rufus) 创建包含 DGX OS 软件映像的可启动 USB 闪存驱动器。

确保满足 先决条件

  1. 将 USB 闪存驱动器插入 Windows 系统的 USB 端口之一。

  2. 下载并启动 Akeo Reliable USB Formatting Utility (Rufus)

    Rufus Utility Dialog Box
  3. 驱动器属性 中,选择以下选项:

    1. 启动选择 中,单击 选择,找到并选择 DGX OS 软件映像。

    2. 分区方案 中,选择 GPT

    3. 目标系统 中,选择 UEFI (非 CSM)

  4. 格式化选项 中,选择以下选项

    1. 文件系统 中,选择 NTFS

    2. 簇大小 中,选择 4096 字节(默认)

  5. 单击 开始

    由于映像是混合 ISO 文件,因此系统会提示您选择是以 ISO 映像(文件复制)模式还是 DD 映像(磁盘映像)模式写入映像。

    Rufus Hybrid Dialog Box
  6. 选择 以 ISO 映像模式写入,然后单击 确定

从 USB 闪存驱动器重新映像系统#

在从 USB 闪存驱动器重新映像系统之前,请确保您有一个包含当前 DGX A100 软件映像的可启动 USB 闪存驱动器。

  1. 将包含 OS 映像的 USB 闪存驱动器插入 DGX A100 系统。

  2. 将显示器和键盘直接连接到 DGX A100 系统。

  3. 启动系统,并在 NVIDIA 徽标出现时按 F11 进入启动菜单。

  4. 选择与插入的 USB 闪存驱动器对应的 USB 卷名,然后从中启动系统。

  5. 当系统启动时,从 GRUB 菜单中选择以下选项之一

    • 安装 DGX OS <版本>:安装 DGX OS 并重新格式化数据 RAID

    • 安装 DGX OS <版本>,但不重新格式化数据 RAID

    • 高级安装选项:如果您想使用加密的根文件系统进行安装,请选择以下选项之一。

      • 安装 DGX OS <版本> 并加密根目录

      • 安装 DGX OS <版本>,加密根目录,但不重新格式化数据 RAID

    如果您是未使用 RAID 磁盘作为缓存并且想要保留 RAID 磁盘上的数据的高级用户,请选择“不重新格式化数据 RAID”选项之一。 有关更多信息,请参阅 安装 OS 时保留 RAID 分区

  6. 按 Enter 键。

DGX A100 系统重启并继续安装映像。 这可能需要超过 15 分钟。

Mellanox InfiniBand 驱动程序安装可能需要大约 30 分钟,具体取决于有多少卡进行固件更新。

安装完成后,系统然后重启进入 OS。

有关在全新安装后首次启动 DGX A100 系统时要采取的步骤,请参阅 首次启动设置

安装选项#

安装 OS 时保留 RAID 分区#

重新映像过程会创建 DGX OS 的全新安装。 在 OS 安装或重新映像过程中,当启动安装程序映像时,系统会显示启动菜单。

默认选择是 安装 DGX 软件。 然后,安装过程将重新分区所有 SSD,包括 OS SSD 以及 RAID SSD,并且 RAID 阵列将挂载为 /raid。 这会覆盖可能存在于 OS 磁盘以及 RAID 磁盘上的任何数据或文件系统。

由于 DGX A100 系统上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此这不应造成破坏。 但是,如果您是高级用户,并且已将磁盘设置为非缓存用途,并且想要保留这些驱动器上的数据,请在启动安装期间的启动菜单中选择“安装 DGX Server,但不格式化 RAID”选项。 此选项保留 RAID 磁盘上的数据并执行以下操作

  • 安装缓存守护程序,但通过注释掉 /etc/default/cachefilesd 条目中的 RUN=yes 行来禁用它。

  • 创建 /raid 目录,通过注释掉 /etc/fstab 中的 /raid 行,将其排除在文件系统表之外。

  • 不格式化 RAID 磁盘。

安装完成后,您可以重复您执行的任何配置步骤,以将 RAID 磁盘用作非缓存磁盘。

您始终可以选择稍后通过启用 cachefilesd 并将 /raid 添加到文件系统表来将 RAID 磁盘用作缓存磁盘,如下所示

  1. 取消注释 /etc/default/cachefiled 中的 #RUN=yes 行。

  2. 取消注释 /etc/fstab 中的 /raid 行。

  3. 运行以下命令

    1. 挂载 /raid。

      $ sudo mount /raid
      
    2. 启动缓存守护程序。

      $ systemctl start cachefilesd
      

这些更改在系统重启后仍然保留。

高级安装选项(加密根目录 - DGX OS 5 或更高版本)#

选择此菜单项可以加密 DGX 的根文件系统。 通常,只有在需要时才应选择此项。

选择 加密根目录 指示安装程序加密根文件系统。 加密是完全自动化的,并且每次系统启动时,用户都需要通过在控制台(通过直接键盘和鼠标连接或通过 BMC)输入密码来手动解锁根分区。 在首次启动过程(请参阅 首次启动设置)中,您有机会为驱动器创建密码。 如果需要,密码可以稍后更改。

启动到 Live 环境(DGX OS 5 或更高版本)#

DGX OS 安装程序映像也可以用作 Live 映像,这意味着它启动并在系统内存中运行最小的 DGX OS,并且不会覆盖系统磁盘上的任何内容。

虽然此 Live 模式不加载驱动程序,并且本质上是一个简单的 Ubuntu Server 配置,但如果系统上的磁盘无法访问,或者不应被触摸,则它可以作为调试系统的工具。

当启动到 live 环境时,以 root 用户身份登录(不需要密码)。 在正常操作中,不应选择此选项。

检查光盘缺陷(DGX OS 5 或更高版本)#

以下是有关如何检查光盘缺陷的一些信息。

如果您在安装 DGX OS 时遇到异常情况,并且怀疑安装介质有问题,则选择此项将对安装介质的内容进行广泛的测试。 这很耗时,并且安装介质通常不是问题的真正根源。

在正常操作中,不应选择此选项。