系统重镜像#
本节提供有关通过从 DGX OS ISO 镜像重镜像系统来安装 DGX OS 的信息。
DGX OS 已在新 DGX 系统上预装,仅在有限的情况下需要重镜像。如果您的系统已运行 DGX OS 6,您可以跳到 初始设置,获取有关系统初始设置的说明。要从 DGX OS 5 升级系统,请参阅 升级操作系统。
您也可以选择手动安装 Ubuntu 和 DGX 软件,例如,如果您需要自定义安装选项,例如特定的驱动器分区方案。有关更多详细信息,请参阅 在 Ubuntu 上安装 DGX 软件。它还介绍了自动化安装过程,例如,用于集群部署。
在某些情况下,您可能需要重镜像系统,例如以下情况:
您想在新系统上安装最新版本。
您需要安装旧版本。
操作系统损坏。
操作系统驱动器被更换,或者 RAID-1 配置中的两个驱动器都被更换。
您想要加密根文件系统。
您想要将 DGX 系统恢复到最初安装的 DGX OS。
警告
重镜像系统会擦除操作系统驱动器上存储的所有数据。这包括 /home
分区,其中存储了所有用户的文档、软件设置和其他个人文件。如果您需要在重镜像过程中保留数据,您可以将文件和文档移动到 /raid
目录,并使用保留 RAID 阵列内容的选项安装 DGX OS 软件。
重镜像过程不会更改持久性硬件配置,例如 MIG 设置或数据驱动器加密。
重要提示
完成安装后,请参阅 升级操作系统 以执行软件包升级,升级到自 DGX OS ISO 版本发布以来可用的最新软件版本,包括安全更新。
获取 DGX OS ISO 镜像#
注意
在开始之前,请确保您拥有有效的 NVIDIA 企业支持帐户。
为确保您安装最新版本的 DGX OS,请从 NVIDIA 企业支持 获取最新的 ISO 镜像文件
转到 下载中心。
单击 [服务器/工作站] -> [DGX],然后为您的系统选择 所有下载。
单击最新 ISO 版本的下载链接以转到公告。
下载公告中引用的 ISO 镜像,并将其保存到本地磁盘。
运行
md5sum
命令以打印 MD5 哈希值,并将其与公告中的值进行比较。例如$ md5sum DGXOS-6.1.0-2023-08-09-12-30-10.iso
示例输出
d38620ffa58905330c1efe49b3d7ff53 DGXOS-6.1.0-2023-08-09-12-30-10.iso
安装 DGX OS 镜像#
通过以下方式之一安装 DGX OS ISO 镜像
通过 BMC 远程安装,适用于提供 BMC 的系统。有关说明,请参阅下面的 通过 BMC 远程安装 DGX OS 镜像。
注意
此方法不适用于 DGX Station (V100)
从 UEFI 可启动 USB 闪存驱动器或 DVD-ROM 本地安装。
请参阅 从 USB 闪存驱动器或 DVD-ROM 安装 DGX OS 镜像。从 NVIDIA 企业支持获取 DGX OS 6 ISO 镜像后,创建包含该镜像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。
通过 BMC 远程安装 DGX OS 镜像#
以下说明描述了如何通过 BMC 远程重镜像系统。
从 NVIDIA 企业支持获取 DGX OS 6 ISO 镜像后,请确保您用于 Web 浏览器的主机可以访问 ISO 镜像文件。
登录到 BMC。
有关更多信息,请参阅 连接到 DGX 系统。
单击 [远程控制],然后单击 [启动 KVM]。
将 ISO 镜像设置为虚拟介质。
从顶部栏中,单击 [浏览文件],然后找到并选择 DGX OS ISO 文件,并单击 [打开]
单击 [启动介质]。
重置系统并启动虚拟介质镜像。
从顶部菜单中,单击 [电源] 并选择 [硬重置],然后单击 [执行操作]。
在电源控制对话框中,单击 [是],然后单击 [确定]。
等待系统断电,然后重新联机。
有关 GRUB 菜单选项的说明以及有关完成安装过程的说明,请参阅 DGX OS ISO 启动选项。
从 USB 闪存驱动器或 DVD-ROM 安装 DGX OS 镜像#
从 NVIDIA 企业支持获取 DGX OS 6 ISO 镜像后,创建包含该镜像的可启动安装介质,例如 USB 闪存驱动器或 DVD-ROM。
要创建可启动 USB 闪存驱动器,请参阅以下链接之一以获取更多信息
在 Linux 上,请参阅 使用 dd 命令创建可启动 USB 闪存驱动器。
在 Windows 上,请参阅 使用 Akeo Rufus 创建可启动 USB 闪存驱动器。
要创建可启动 DVD ROM,请参阅 Ubuntu 社区帮助 Wiki 上的 将 ISO 刻录到 DVD-ROM,以获取有关可用方法的更多信息。
使用 dd 命令创建可启动 USB 闪存驱动器#
在 Linux 系统上,您可以使用 dd 命令创建包含 DGX OS 软件镜像的可启动 USB 闪存驱动器。
注意
为确保生成的闪存驱动器可启动,请使用 dd
命令对镜像执行设备位复制。如果您使用其他命令对镜像执行简单的文件复制,则生成的闪存驱动器可能不可启动。
确保满足以下先决条件
正确的 DGX OS 软件镜像已保存到您的本地磁盘。
有关更多信息,请参阅 获取 DGX OS ISO 镜像。
USB 闪存驱动器满足以下要求
USB 闪存驱动器的容量至少为 16 GB。
(仅限 DGX A100) USB 闪存驱动器上的分区方案是 UEFI 的 GPT 分区。
创建可启动 USB 闪存驱动器
将 USB 闪存驱动器插入 Linux 主机的一个 USB 端口。通过运行 lsblk 命令获取 USB 闪存驱动器的设备名称。
lsblk
您可以根据 USB 闪存驱动器的大小(远小于 DGX 软件中 SSD 的大小)以及驱动器上任何分区的挂载点(在
/media
下)来识别它。在以下示例输出中,USB 闪存驱动器的设备名称为
sde
。NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT sda 8:0 0 1.8T 0 disk |_sda1 8:1 0 121M 0 part /boot/efi |_sda2 8:2 0 1.8T 0 part / sdb 8:16 0 1.8T 0 disk |_sdb1 8:17 0 1.8T 0 part sdc 8:32 0 1.8T 0 disk sdd 8:48 0 1.8T 0 disk sde 8:64 1 7.6G 0 disk |_sde1 8:65 1 7.6G 0 part /media/deeplearner/DGXSTATION
以 root 用户身份,转换镜像并将其复制到 USB 闪存驱动器。
sudo dd if=<path-to-ISO-image> bs=2048 of=<usb-drive-device-name>
警告
dd
命令会擦除您在of
参数中指定的设备上的所有数据。为避免数据丢失,请确保您指定了 USB 闪存驱动器的正确路径。
使用 Akeo Rufus 创建可启动 USB 闪存驱动器#
在 Windows 系统上,您可以使用 Akeo Reliable USB Formatting Utility (Rufus) 创建包含 DGX OS 软件镜像的可启动 USB 闪存驱动器。
确保满足以下先决条件
正确的 DGX OS 软件镜像已保存到您的本地磁盘。
有关更多信息,请参阅 获取 DGX OS ISO 镜像。
USB 闪存驱动器的容量至少为 16 GB。
按照以下步骤创建可启动 USB 闪存驱动器
将 USB 闪存驱动器插入 Windows 系统的一个 USB 端口。
在 驱动器属性 中,选择以下选项
在 设备 中,选择您的 USB 闪存驱动器。
在 启动选择 中,单击 [选择],找到并选择 DGX OS 软件镜像。
您可以将其他设置保留为默认值。
单击 [开始]。此步骤会提示您选择是以 ISO 镜像模式(文件复制)还是 DD 镜像模式(磁盘镜像)写入镜像。
选择 [以 DD 镜像模式写入],然后单击 [确定]。
启动 DGX OS ISO 镜像#
以下说明描述了如何本地启动 DGX OS ISO 镜像。
将包含操作系统镜像的 USB 闪存驱动器插入 DGX 系统。
将显示器和键盘直接连接到 DGX 系统。
启动系统,然后在出现 NVIDIA 徽标时按 F11 访问启动菜单。
选择与插入的 USB 闪存驱动器对应的 USB 卷名,并从中启动系统。
有关 GRUB 菜单选项的说明以及有关完成安装过程的信息,请参阅 DGX OS ISO 启动选项)。
DGX OS ISO 启动选项#
本节提供有关 DGX OS ISO 安装程序的可用安装和启动选项的信息。
以下说明假定您已启动 DGX OS ISO,无论是通过 BMC 远程启动还是从 USB 闪存驱动器本地启动。
当系统启动时,从 GRUB 菜单中选择以下选项之一
安装 DGX OS <版本>
安装 DGX OS <版本>:不重新格式化数据 RAID(不挂载 /raid)
高级安装选项 - 安装 DGX OS <版本>,不带 NVIDIA 驱动程序 - 安装 DGX OS <版本>,带加密根目录 - 安装 DGX OS <版本>,带加密根目录且不重新格式化数据 RAID
启动到 Live 环境
检查介质是否存在缺陷
有关这些选项的更多信息,请参阅以下各节。
验证 DGX 系统已启动,并且正在安装镜像。
此过程将迭代软件组件,并复制和安装它们,显示执行的命令。此过程通常需要 15 到 60 分钟,具体取决于 DGX 平台以及系统镜像的方式(例如,通过慢速网络的 BMC 或通过快速 USB 闪存驱动器本地镜像)。
注意
在 DGX 服务器上,安装 NVIDIA InfiniBand 驱动程序,并更新 ConnectX 卡上的固件。每个卡的此过程可能需要长达 5 分钟。其他系统固件不会更新。
安装完成后,系统将重新启动到操作系统,并提示输入配置信息。有关如何在系统重镜像后首次启动 DGX 系统的更多信息,请参阅 初始设置。
安装 DGX OS#
以下是安装 DGX 系统并重新格式化数据 RAID 的步骤。
当您接受此选项时,安装过程会对所有驱动器(包括操作系统驱动器和数据驱动器)重新分区。数据驱动器配置为 RAID 阵列,并挂载在 /raid
目录下。此过程会覆盖操作系统驱动器和数据驱动器上可能存在的所有数据和文件系统。DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此重新格式化数据 RAID 不应造成中断。
这些更改会在系统重启后保留。
安装 DGX OS,不重新格式化数据 RAID#
以下是安装 DGX 系统而不重新格式化数据 RAID 的步骤。
DGX 数据磁盘上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此这不应造成中断。但是,如果您是高级用户,并且已将磁盘设置为非缓存用途,并且想要保留这些驱动器上的数据,请在启动安装期间的启动菜单中选择 安装 DGX 系统,不重新格式化数据 RAID 选项。此选项会保留 RAID 磁盘上的数据,并完成以下任务
安装缓存守护程序,但通过注释掉
/etc/default/cachefilesd
中的RUN=yes
行来禁用它创建
/raid
目录,通过注释掉/etc/fstab
中包含/raid
的条目,将其排除在文件系统表之外不格式化 RAID 磁盘。
安装完成后,您可以重复您执行过的任何配置步骤,以将 RAID 磁盘用作非缓存磁盘。您始终可以选择稍后通过启用 cachefilesd
并将 /raid
添加到文件系统表,来将 RAID 磁盘用作缓存磁盘
取消注释
/etc/default/cachefilesd
中的#RUN=yes
行。要在
/raid
处挂载块设备或 RAID 阵列,请取消注释/etc/fstab
中的/raid
行。确保将
<device>
替换为适合您环境的正确值。运行以下命令
挂载
/raid
。sudo mount /raid
重新加载 systemd 管理器配置。
systemctl daemon-reload
启动缓存守护程序。
systemctl start cachefilesd
这些更改会在系统重启后保留。
高级安装选项(加密根目录)#
当您选择此菜单项时,您有能力加密 DGX 系统的根文件系统。
警告
仅当您要加密根文件系统时,才选择此选项。
除了加密的根文件系统之外,行为与默认安装相同。
选择 加密根目录 会指示安装程序加密根文件系统。加密是完全自动化的,每次系统启动时,您都需要通过在控制台(通过直接键盘和鼠标连接或通过 BMC)输入密码来手动解锁根分区。
当您首次启动 DGX 系统时,系统会提示您接受 NVIDIA 软件的最终用户许可协议。然后,系统将引导您完成初始 Ubuntu 操作系统配置过程,您可以为驱动器创建密码。如有必要,您可以稍后更改此密码。有关更多详细信息,请参阅 DGX 服务器的首次启动过程 或 DGX Station 的首次启动过程。
警告
加密 无法 在安装后启用或禁用。要再次更改加密状态,您需要重镜像驱动器。
启动到 Live 环境#
DGX OS 安装程序镜像也可以用作 Live 镜像,这意味着镜像启动并在系统内存中运行最简化的 DGX OS,并且不会覆盖系统磁盘上的任何内容。
Live 模式不加载驱动程序,本质上是一个简单的 Ubuntu Server 配置。当系统上的磁盘不可访问或不应触摸时,此模式可以用作调试系统的工具。
在典型操作中,不应选择此选项。
检查光盘是否存在缺陷#
以下是一些关于如何检查光盘是否存在缺陷的信息。
如果您在安装 DGX OS 时遇到异常情况,并且怀疑安装介质可能有问题,请选择此项以完成对安装介质内容的广泛测试。
此过程非常耗时,并且安装介质通常不是问题的根源。在典型操作中,不应选择此选项。