系统重镜像#

本节提供有关通过从 DGX OS ISO 镜像重镜像系统来安装 DGX OS 的信息。

DGX OS 已预装在新的 DGX 系统上,仅在少数情况下需要重镜像。如果您的系统已运行 DGX OS 7,您可以跳至初始设置,以获取有关系统初始设置的说明。要从 DGX OS 5 或 DGX OS 6 升级系统,请参阅升级操作系统

您也可以选择手动安装 Ubuntu 和 DGX 软件,例如,如果您需要自定义安装选项,例如特定的驱动器分区方案。有关更多信息,请参阅使用 DGX 软件自定义 Ubuntu 安装。它还描述了自动化安装过程,例如集群部署。

以下情况需要您重镜像 DGX 系统

  • 在新系统上安装最新版本。

  • 安装旧版本。

  • 操作系统损坏。

  • 操作系统驱动器被更换,或者 RAID-1 配置中的两个驱动器都被更换。

  • 加密根文件系统。

  • 将 DGX 系统恢复到原始安装的 DGX OS。

注意

重镜像系统会擦除操作系统驱动器上存储的所有数据。这包括 /home 分区,其中存储了所有用户的文档、软件设置和其他个人文件。如果您需要在重镜像过程中保留数据,您可以将文件和文档移动到 /raid 目录,并使用保留 RAID 阵列内容选项安装 DGX OS 软件。

重镜像过程不会更改持久性硬件配置,例如 MIG 设置或数据驱动器加密。

重要提示

完成安装后,请参阅升级操作系统以执行软件包升级,升级到自 DGX OS ISO 版本发布以来可用的最新软件版本,包括安全更新。

获取 DGX OS ISO 镜像#

注意

在开始之前,请确保您拥有有效的 NVIDIA 企业支持帐户。

为确保您安装最新版本的 DGX OS,请从NVIDIA 企业支持获取最新的 ISO 镜像文件

  1. 转到下载中心

  2. 选择 服务器/工作站 -> DGX,然后为您的系统选择 所有下载

  3. 单击最新 ISO 版本的下载链接以转到公告。

  4. 下载公告中引用的 ISO 镜像,并将其保存到您的本地磁盘。

  5. 运行 md5sum 命令以打印 MD5 哈希值,并将其与公告中的值进行比较。例如

    $ md5sum DGXOS-7.0.0-2024-11-27-14-53-26.iso
    

    示例输出

    9b68de74120d0d01dc60e0b3765e60b4  DGXOS-7.0.0-2024-11-27-14-53-26.iso
    

安装 DGX OS 镜像#

通过以下方式之一安装 DGX OS ISO 镜像

通过 BMC 远程安装 DGX OS 镜像#

这些说明描述了如何通过 BMC 远程重镜像系统。

从 NVIDIA 企业支持获取 DGX OS 7 ISO 镜像后,确保您用于 Web 浏览器的主机可以访问 ISO 镜像文件。

  1. 登录到 BMC。

    有关更多信息,请参阅连接到 DGX 系统

  2. 选择 远程控制,然后单击 启动 KVM

  3. 将 ISO 镜像设置为虚拟介质。

    1. 从顶部栏中,选择 浏览文件,找到并选择 DGX OS ISO 文件,然后单击 打开

    2. 单击 启动介质

  4. 重置系统并启动虚拟介质镜像。

    1. 从顶部菜单中,选择 电源 > 硬重置,然后单击 执行操作

    2. 在电源控制对话框中,单击 ,然后单击 确定

      等待系统断电,然后重新联机。

    3. 有关 GRUB 菜单选项的描述以及有关完成安装过程的说明,请参阅DGX OS ISO 启动选项

从 USB 闪存驱动器或 DVD-ROM 安装 DGX OS 镜像#

从 NVIDIA 企业支持获取 DGX OS 7 ISO 镜像后,创建可启动安装介质,例如包含该镜像的 USB 闪存驱动器或 DVD-ROM。

使用 dd 命令创建可启动 USB 闪存驱动器#

在 Linux 系统上,您可以使用 dd 命令创建包含 DGX OS 软件镜像的可启动 USB 闪存驱动器。

注意

为确保生成的闪存驱动器是可启动的,请使用 dd 命令执行镜像的设备位复制。如果您使用其他命令执行镜像的简单文件复制,则生成的闪存驱动器可能不可启动。

确保满足以下先决条件

  • 正确的 DGX OS 软件镜像已保存到您的本地磁盘。

    有关更多信息,请参阅获取 DGX OS ISO 镜像

  • USB 闪存驱动器满足以下要求

    • USB 闪存驱动器的容量至少为 16 GB。

    • (仅限 DGX A100)USB 闪存驱动器上的分区方案是 UEFI 的 GPT 分区。

创建可启动 USB 闪存驱动器

  1. 将 USB 闪存驱动器插入 Linux 主机的一个 USB 端口。通过运行 lsblk 命令获取 USB 闪存驱动器的设备名称。

    lsblk
    

    您可以从其大小(远小于 DGX 软件中 SSD 的大小)以及驱动器上任何分区的挂载点(位于 /media 下)来识别 USB 闪存驱动器。

    在以下示例输出中,USB 闪存驱动器的设备名称为 sde

    NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
    sda      8:0    0   1.8T  0 disk
    |_sda1   8:1    0   121M  0 part /boot/efi
    |_sda2   8:2    0   1.8T  0 part /
    sdb      8:16   0   1.8T  0 disk
    |_sdb1   8:17   0   1.8T  0 part
    sdc      8:32   0   1.8T  0 disk
    sdd      8:48   0   1.8T  0 disk
    sde      8:64   1   7.6G  0 disk
    |_sde1   8:65   1   7.6G  0 part /media/deeplearner/DGXSTATION
    
  2. 以 root 用户身份,转换镜像并将其复制到 USB 闪存驱动器。

    sudo dd if=<path-to-ISO-image> bs=2048 of=<usb-drive-device-name>
    

    警告

    dd 命令会擦除您在 of 参数中指定的设备上的所有数据。为避免数据丢失,请确保您指定了 USB 闪存驱动器的正确路径。

使用 Akeo Rufus 创建可启动 USB 闪存驱动器#

在 Windows 系统上,您可以使用 Akeo Reliable USB Formatting Utility (Rufus) 创建包含 DGX OS 软件镜像的可启动 USB 闪存驱动器。

确保满足以下先决条件

  • 正确的 DGX OS 软件镜像已保存到您的本地磁盘。

    有关更多信息,请参阅获取 DGX OS ISO 镜像

  • USB 闪存驱动器的容量至少为 16 GB。

按照以下步骤创建可启动 USB 闪存驱动器

  1. 将 USB 闪存驱动器插入 Windows 系统的一个 USB 端口。

  2. 下载并启动 Akeo Reliable USB Formatting Utility (Rufus)

  3. 驱动器属性 中,选择以下选项

    1. 设备 中,选择您的 USB 闪存驱动器。

    2. 引导选择 中,单击 选择,找到并选择 DGX OS 软件镜像。

    您可以将其他设置保留为默认值。

  4. 单击 开始。此步骤会提示您选择是以 ISO 镜像模式(文件复制)还是 DD 镜像模式(磁盘镜像)写入镜像。

    _images/rufus-hybrid.png
  5. 选择 以 DD 镜像模式写入,然后单击 确定

启动 DGX OS ISO 镜像#

这些说明描述了如何本地启动 DGX OS ISO 镜像。

  1. 将包含 OS 镜像的 USB 闪存驱动器插入 DGX 系统。

  2. 将显示器和键盘直接连接到 DGX 系统。

  3. 启动系统,然后在出现 NVIDIA 徽标时按 F11 键以访问启动菜单。

  4. 选择与插入的 USB 闪存驱动器对应的 USB 卷名,并从中启动系统。

有关 GRUB 菜单选项的描述以及有关完成安装过程的信息,请参阅DGX OS ISO 启动选项

DGX OS ISO 启动选项#

本节提供有关 DGX OS ISO 安装程序的可用安装和启动选项的信息。

这些说明假定您已启动 DGX OS ISO,无论是通过 BMC 远程启动还是从 USB 闪存驱动器本地启动。

  • 当系统启动时,从 GRUB 菜单中选择以下选项之一

    • 安装 DGX OS <版本>

    • 安装 DGX OS <版本>:不重新格式化数据 RAID(不挂载 /raid)

    • 高级安装选项 - 安装 DGX OS <版本>(不带 NVIDIA 驱动程序)- 安装 DGX OS <版本>(带加密根目录)- 安装 DGX OS <版本>(带加密根目录且不重新格式化数据 RAID)

    • 启动到 Live 环境

    • 检查介质是否存在缺陷

    有关这些选项的更多信息,请参阅以下各节。

  • 验证 DGX 系统是否已启动以及镜像是否正在安装。

    此过程将迭代软件组件,并复制和安装它们,显示执行的命令。此过程通常需要 15 到 60 分钟,具体取决于 DGX 平台以及系统的镜像方式(例如,通过慢速网络的 BMC 或通过快速 USB 闪存驱动器本地镜像)。

注意

在 DGX 服务器上,将安装 NVIDIA InfiniBand 驱动程序,并更新 ConnectX 卡上的固件。对于每张卡,此过程可能需要长达 5 分钟。不更新其他系统固件。

安装完成后,系统将重新启动到操作系统,并提示输入配置信息。有关如何在重镜像系统后首次启动 DGX 系统的更多信息,请参阅初始设置

安装 DGX OS#

以下是安装 DGX 系统并重新格式化数据 RAID 的步骤。

当您接受此选项时,安装过程将重新分区所有驱动器,包括操作系统驱动器和数据驱动器。数据驱动器配置为 RAID 阵列,并挂载在 /raid 目录下。此过程会覆盖操作系统驱动器和数据驱动器上可能存在的所有数据和文件系统。DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此重新格式化数据 RAID 不应造成中断。

这些更改将在系统重启后保留。

安装 DGX OS 而不重新格式化数据 RAID#

以下是安装 DGX 系统而不重新格式化数据 RAID 的步骤。

DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此这不应造成中断。但是,如果您是高级用户,并且已将磁盘设置为非缓存用途并希望保留这些驱动器上的数据,请在启动安装期间的启动菜单中选择 安装 DGX 系统而不重新格式化数据 RAID 选项。此选项保留 RAID 磁盘上的数据,并完成以下任务

  • 安装缓存守护程序,但通过注释掉 /etc/default/cachefilesd 中的 RUN=yes 行来禁用它

  • 创建 /raid 目录,通过注释掉 /etc/fstab 中包含 /raid 的条目,将其排除在文件系统表之外

  • 不格式化 RAID 磁盘。

安装完成后,您可以重复您执行的任何配置步骤,以便将 RAID 磁盘用作缓存磁盘以外的磁盘。您始终可以选择稍后通过启用 cachefilesd 并将 /raid 添加到文件系统表来将 RAID 磁盘用作缓存磁盘

  1. 取消注释 /etc/default/cachefilesd 中的 #RUN=yes 行。

  2. 要在 /raid 处挂载块设备或 RAID 阵列,请取消注释 /etc/fstab 中的 /raid 行。

    确保将 <设备> 替换为适合您环境的正确值。

  3. 运行以下命令

    1. 挂载 /raid

      sudo mount /raid
      
    2. 重新加载 systemd 管理器配置。

      systemctl daemon-reload
      
    3. 启动缓存守护程序。

      systemctl start cachefilesd
      

这些更改将在系统重启后保留。

高级安装选项(加密根目录)#

当您选择此菜单项时,您可以加密 DGX 系统的根文件系统。

注意

仅当您要加密根文件系统时才选择此选项。

除了加密的根文件系统外,行为与默认安装相同。

选择 加密根目录 指示安装程序加密根文件系统。加密是完全自动化的,每次系统启动时,您都需要通过在控制台(通过直接键盘和鼠标连接或通过 BMC)输入密码短语来手动解锁根分区。

首次打开 DGX 系统的电源时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。然后,系统将引导您完成初始 Ubuntu 操作系统配置过程,您可以为驱动器创建密码短语。如有必要,您可以稍后更改此密码短语。有关更多详细信息,请参阅DGX 服务器的首次启动过程DGX 工作站的首次启动过程

注意

加密在安装后无法启用或禁用。要再次更改加密状态,您需要重镜像驱动器。

启动到 Live 环境#

DGX OS 安装程序镜像也可以用作 Live 镜像,这意味着镜像启动并在系统内存中运行最小的 DGX OS,并且不会覆盖系统磁盘上的任何内容。

Live 模式不加载驱动程序,本质上是一个简单的 Ubuntu Server 配置。当系统上的磁盘不可访问或不应触摸时,此模式可以用作调试系统的工具。

在典型操作中,不应选择此选项。

检查光盘是否存在缺陷#

以下是一些关于如何检查光盘是否存在缺陷的信息。

如果您在安装 DGX OS 时遇到异常,并怀疑安装介质可能存在问题,请选择此项以完成对安装介质内容的全面测试。

该过程非常耗时,并且安装介质通常不是问题的根源。在典型操作中,不应选择此选项。