重新映像#

本节提供有关通过从 DGX OS ISO 映像重新映像系统来安装 DGX OS 的信息。

DGX OS 已预装在新的 DGX 系统上,仅在有限的情况下才需要重新映像。如果您的系统已在运行 DGX OS 5,您可以跳到 初始设置 以获取有关系统初始设置的说明。要从 DGX OS 4 升级系统,请参阅 升级

您还可以选择手动安装 Ubuntu 和 DGX 软件,例如,如果您需要自定义安装选项,例如特定的驱动器分区方案。有关更多详细信息,请参阅 在 Ubuntu 上安装。它还描述了自动化安装过程,例如,用于集群部署。

在某些情况下,您可能需要重新映像系统,例如以下情况

  • 当您想在新系统上安装最新版本时。

  • 当您需要安装旧版本时

  • 当操作系统损坏时。

  • 当操作系统驱动器被更换或 RAID-1 配置中的两个驱动器都被更换时。

  • 当您想要加密根文件系统时。

  • 当您想要全新安装 DGX OS 5 时。

警告

重新映像系统会擦除操作系统驱动器上存储的所有数据。这包括 /home 分区,其中存储了所有用户的文档、软件设置和其他个人文件。如果您需要在重新映像过程中保留数据,您可以将文件和文档移动到 /raid 目录,并在安装 DGX OS 软件时选择保留 RAID 阵列内容。

重新映像过程不会更改持久性硬件配置,例如 MIG 设置或数据驱动器加密。

重要提示

完成安装后,您需要

另请参阅 升级,以获取有关将系统升级到自 DGX OS ISO 版本发布以来可用的最新软件版本(包括安全更新)的信息。

获取 DGX OS ISO 映像#

注意

在开始之前,请确保您拥有有效的 NVIDIA 企业支持 帐户。

为了确保您安装最新可用的 DGX OS 版本,请从 NVIDIA 企业支持 获取最新的 ISO 映像文件

  1. 转到 下载中心

  2. 单击 [服务器/工作站] -> [DGX],然后为您的系统选择 所有下载

  3. 单击最新 ISO 版本的下载链接以转到公告。

  4. 下载公告中引用的 ISO 映像,并将其保存到您的本地磁盘。

  5. 运行 md5sum 命令以打印 MD5 哈希值,并将其与公告中的值进行比较。

    md5sum DGXOS-5.0.0-2020-09-21-15-40-02.iso
    e4c77338ed35d7a34e772d8552e9d080 --> DGXOS-5.0.0-2020-09-21-15-40-02.iso
    

安装 DGX OS 映像#

通过以下方式之一安装 DGX OS ISO 映像

  • 对于提供 BMC 的系统,通过 BMC 远程安装。有关说明,请参阅下面的 通过 BMC 远程安装 DGX OS 映像

    注意

    此方法不适用于 DGX Station (V100)

  • 从 UEFI 可启动的 USB 闪存驱动器或 DVD-ROM 本地安装。

    有关说明,请参阅相应 DGX 用户指南 中的从 USB 闪存驱动器或 DVD-ROM 安装 DGX OS 映像部分。

    从 NVIDIA 企业支持获取 DGX OS 5 ISO 映像后,创建一个包含该映像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。

通过 BMC 远程安装 DGX OS 映像#

这些说明描述了如何通过 BMC 远程重新映像系统。从 NVIDIA 企业支持获取 DGX OS 5 ISO 映像后,创建一个包含该映像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。

  1. 登录到 BMC 连接到 DGX 系统

  2. 单击 [远程控制],然后单击 [启动 KVM]

  3. 将 ISO 映像设置为虚拟介质。

    1. 从顶部栏中,单击 [浏览文件],然后找到并选择 DGX OS ISO 文件,然后单击 [打开]

    2. 单击 [启动介质]

  4. 重置系统并启动虚拟介质映像。

    1. 从顶部菜单中,单击 [电源] 并选择 [硬重置],然后单击 [执行操作]

    2. 在电源控制对话框中单击 [是],然后单击 [确定],然后等待系统断电并重新联机。

    3. 有关 GRUB 菜单选项的描述以及完成安装过程的说明,请参阅 DGX OS ISO 启动选项

从 USB 闪存驱动器或 DVD-ROM 安装 DGX OS 映像#

从 NVIDIA 企业支持获取 DGX OS 5 ISO 映像后,创建一个包含该映像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。

使用 dd 命令创建可启动 USB 闪存驱动器#

在 Linux 系统上,您可以使用 dd 命令创建一个包含 DGX OS 软件映像的可启动 USB 闪存驱动器。

注意

为了确保生成的闪存驱动器是可启动的,请使用 dd 命令对映像执行设备位复制。如果您使用其他命令对映像执行简单的文件复制,则生成的闪存驱动器可能无法启动。

确保满足以下先决条件

  • 正确的 DGX OS 软件映像已保存到您的本地磁盘。

    有关更多信息,请参阅 校验和文件

  • USB 闪存驱动器满足以下要求

    • USB 闪存驱动器的容量至少为 16 GB。

    • 此要求仅适用于 DGX A100:USD 闪存驱动器上的分区方案是用于 UEFI 的 CPT 分区方案。

  1. 将 USB 闪存驱动器插入 Linux2 的 USB 端口之一。通过运行 lsblk 命令获取 USB 闪存驱动器的设备名称。

    lsblk
    

    您可以根据 USB 闪存驱动器的大小(远小于 DGX 软件中 SSD 的大小)以及驱动器上任何分区的挂载点(位于 /media 下)来识别 USB 闪存驱动器。

    在以下示例中,USB 闪存驱动器的设备名称为 sde

    lsblk
    
    NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
    sda      8:0    0   1.8T  0 disk
    |_sda1   8:1    0   121M  0 part /boot/efi
    |_sda2   8:2    0   1.8T  0 part /
    sdb      8:16   0   1.8T  0 disk
    |_sdb1   8:17   0   1.8T  0 part
    sdc      8:32   0   1.8T  0 disk
    sdd      8:48   0   1.8T  0 disk
    sde      8:64   1   7.6G  0 disk
    |_sde1   8:65   1   7.6G  0 part /media/deeplearner/DGXSTATION
    
  2. 以 root 用户身份,转换并将映像复制到 USB 闪存驱动器。

    sudo dd if=path-to-software-image bs=2048 of=usb-drive-device-name
    

    警告

    dd 命令会擦除您在命令的 of 选项中指定的设备上的所有数据。为避免数据丢失,请确保您指定了 USB 闪存驱动器的正确路径。

使用 Akeo Rufus 创建可启动 USB 闪存驱动器#

在 Windows 系统上,您可以使用 Akeo 可靠 USB 格式化实用程序 (Rufus) 创建一个包含 DGX OS 软件映像的可启动 USB 闪存驱动器。

确保满足以下先决条件

  • 正确的 DGX OS 软件映像已保存到您的本地磁盘。

    有关更多信息,请参阅 校验和文件

  • USB 闪存驱动器的容量至少为 16 GB。

按照以下步骤创建可启动的 USB 闪存驱动器

  1. 将 USB 闪存驱动器插入 Windows 系统的 USB 端口之一。

  2. 下载并启动 Akeo 可靠 USB 格式化实用程序 (Rufus)

  3. 驱动器属性 中,选择以下选项

    1. 设备 中,选择您的 USB 闪存驱动器。

    2. 启动选择 中,单击 [选择],找到并选择 DGX OS 软件映像。

    您可以将其他设置保留为默认值。

  4. 单击 [开始]。此步骤会提示您选择是以 ISO 映像模式(文件复制)还是 DD 映像模式(磁盘映像)写入映像。

    _images/rufus-hybrid.png
  5. 选择 [以 DD 映像模式写入],然后单击 [确定]

启动 DGX OS ISO 映像#

这些说明描述了如何在本地启动 DGX OS ISO 映像。

  1. 将包含 OS 映像的 USB 闪存驱动器插入 DGX 系统。

  2. 将显示器和键盘直接连接到 DGX 系统。

  3. 启动系统,然后在出现 NVIDIA 徽标时按 F11 以进入启动菜单。

  4. 选择与插入的 USB 闪存驱动器对应的 USB 卷名,并从中启动系统。

  5. 继续下一章(DGX OS ISO 启动选项),以获取 GRUB 菜单选项的描述以及完成安装过程的说明。

DGX OS ISO 启动选项#

本节提供有关 DGX OS ISO 安装程序的可用安装和启动选项的信息。

这些说明假定您已启动 DGX OS ISO,无论是通过 BMC 远程启动还是从 USB 闪存驱动器本地启动。

  • 当系统启动时,从 GRUB 菜单中选择以下选项之一

    • 安装 DGX OS <版本>:安装 DGX OS 并重新格式化数据 RAID

    • 安装 DGX OS <版本>:不重新格式化数据 RAID

    • 高级安装选项:选择使用加密的根文件系统进行安装

      • 安装 DGX OS <版本>,带加密根目录

      • 安装 DGX OS <版本>,带加密根目录且不重新格式化数据 RAID

    • 启动到 Live 环境

    • 检查光盘是否有缺陷

    有关这些选项的更多信息,请参阅以下小节。

  • 验证 DGX 系统已启动并且正在安装映像。

    此过程将迭代软件组件,复制并安装它们,同时显示执行的命令。此过程通常需要 15 到 60 分钟,具体取决于 DGX 平台以及系统映像的方式(例如,通过慢速网络的 BMC 或通过快速 USB 闪存驱动器本地映像)。

注意

在 DGX 服务器上,将安装 NVIDIA InfiniBand 驱动程序,并更新 ConnectX 卡上的固件。此过程每张卡最多可能需要 5 分钟。其他系统固件不会更新。

安装完成后,系统将重新启动到操作系统,并提示输入配置信息。有关在全新安装后首次启动 DGX 系统的方法的更多信息,请参阅 初始设置

安装 DGX OS 并重新格式化数据 RAID#

以下是安装 DGX 系统并重新格式化数据 RAID 的步骤。

当您接受此选项时,安装过程将重新分区所有驱动器,包括操作系统驱动器和数据驱动器。数据驱动器配置为 RAID 阵列并挂载在 /raid 目录下。此过程会覆盖操作系统驱动器和数据驱动器上可能存在的所有数据和文件系统。DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此重新格式化数据 RAID 不应具有破坏性。

这些更改在系统重启后仍然保留。

安装 DGX OS 但不重新格式化数据 RAID#

以下是安装 DGX 系统但不重新格式化数据 RAID 的步骤。

DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此这不应具有破坏性。但是,如果您是高级用户,并且已将磁盘设置为非缓存用途,并希望保留这些驱动器上的数据,请在启动安装期间在启动菜单中选择 [安装 DGX 系统] 但不格式化 RAID 选项。此选项保留 RAID 磁盘上的数据,并完成以下任务

  • 安装缓存守护程序,但通过注释掉 /etc/default/cachefilesd 中的 RUN=yes 行使其保持禁用状态

  • 创建 /raid 目录,通过注释掉 /etc/fstab 中包含 /raid 的条目,将其排除在文件系统表之外

  • 不格式化 RAID 磁盘。

安装完成后,您可以重复您执行的任何配置步骤,以将 RAID 磁盘用作非缓存磁盘。您始终可以选择稍后通过启用 cachefilesd 并将 /raid 添加到文件系统表,将 RAID 磁盘用作缓存磁盘

  1. 取消注释 /etc/default/cachefilesd 中的 #RUN=yes

  2. 取消注释 etc/fstab 中的 /raid

  3. 运行以下命令

    1. 挂载 /raid

      sudo mount /raid
      
    2. 重新加载 systemd 管理器配置。

      systemctl daemon-reload
      
    3. 启动缓存守护程序。

      systemctl start cachefilesd.server
      

这些更改在系统重启后仍然保留。

高级安装选项(加密根目录)#

当您选择此菜单项时,您能够加密 DGX 系统的根文件系统。

警告

仅当您想要加密根文件系统时,才应选择此选项。

除了加密的根文件系统外,行为与默认安装相同。

选择 加密根目录 会指示安装程序加密根文件系统。加密是完全自动化的,每次系统启动时,您都需要在控制台(通过直接键盘和鼠标连接或通过 BMC)输入密码短语来手动解锁根分区。

DGX 服务器的首次启动过程 “以下是完成 DGX 服务器首次启动过程的步骤。或 DGX Station 的首次启动过程 期间

当您首次打开 DGX 系统电源时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。然后,系统将引导您完成初始 Ubuntu 操作系统配置过程,您可以为驱动器创建密码短语。如有必要,您可以稍后更改此密码短语。

警告

加密在安装后无法启用或禁用。要再次更改加密状态,您需要重新映像驱动器。

启动到 Live 环境#

DGX OS 安装程序映像也可以用作 Live 映像,这意味着该映像启动并在系统内存中运行最小的 DGX OS,并且不会覆盖系统磁盘上的任何内容。

Live 模式不加载驱动程序,本质上是一个简单的 Ubuntu Server 配置。当系统上的磁盘不可访问或不应触摸时,此模式可用作调试系统的工具。

在典型操作中,不应选择此选项。

检查光盘是否有缺陷#

以下是有关如何检查光盘是否有缺陷的一些信息。

如果您在安装 DGX OS 时遇到异常,并怀疑安装介质可能存在问题,请选择此项以完成对安装介质内容的广泛测试。

此过程非常耗时,并且安装介质通常不是问题的根源。在典型操作中,不应选择此选项。