安装 Red Hat Enterprise Linux 8#

Red Hat 提供了几种安装 Red Hat Enterprise Linux 的方法,如执行标准 RHEL 8 安装中所述。

本主题中的安装说明适用于最新版本的 DGX 软件 Red Hat Enterprise Linux 8。DGX 软件不包括扩展更新支持 (EUS),这是 Red Hat Enterprise Linux 的可选订阅。有关 EUS 的更多信息,请参阅Red Hat Enterprise Linux (RHEL) 扩展更新支持 (EUS) 概述。

为了方便起见,本主题描述了如何使用快速安装方法安装 Red Hat Enterprise Linux 或 Rocky Linux,并说明了在此过程中何时回收磁盘空间。它描述了一个最小化安装。如果您有首选的 Red Hat Enterprise Linux 安装方法,则可以跳过本节,但请务必回收现有 Ubuntu 安装占用的磁盘空间。

此处描述的交互式方法使用连接的显示器和键盘以及带有 ISO 映像的 USB 驱动器,或通过 BMC 的远程控制台在 DGX 上安装 Red Hat Enterprise Linux。

获取 Red Hat Enterprise Linux 8#

获取 Red Hat Enterprise Linux 8 ISO 映像并存储在本地磁盘上,或创建格式化为 UEFI 的启动 USB 驱动器。有关说明,请参阅下载 Red Hat Enterprise Linux

对于 Rocky Linux 8,请访问下载 Rocky Linux。

重要提示

请参阅发行说明,了解有关支持的发行版或依赖项的任何重要信息。

本地引导 Red Hat Enterprise Linux 8 ISO#

  1. 将包含 Red Hat Enterprise Linux 8 ISO 映像的 USB 闪存驱动器插入 DGX。

  2. 将显示器和键盘直接连接到 DGX。

  3. 启动系统并在出现 NVIDIA 徽标时按 F11 进入启动菜单。

  4. 选择与插入的 USB 闪存驱动器对应的 USB 卷名,并从中启动系统。

  5. 按照安装 Red Hat Enterprise Linux中的说明进行操作。

远程引导 Red Hat Enterprise Linux 8 ISO#

如果您使用显示器和键盘进行本地安装,请跳过本章。如果您在 DGX Station 上进行安装,也无法远程引导 ISO。

在 DGX-1 上远程引导 ISO 映像#

如果您使用显示器和键盘进行本地安装,请跳过本章。

  1. 连接到 BMC 并更改用户权限。

    1. 在您的 LAN 中打开启用 Java 的 Web 浏览器,然后转到 http://<BMC-ip-address>/,然后登录。

    2. 使用 Firefox 或 Internet Explorer(BMC 未正式支持 Google Chrome。)

    3. 从顶部菜单中,单击 Configuration,然后选择 Users

    4. 单击包含您为 BMC 创建的用户名的卡片

    5. 在*修改用户*对话框中,选中 VMedia 复选框以将其添加到用户的扩展权限,然后单击 Modify

      _images/bmc-modify-user.png
  2. 将 ISO 映像设置为虚拟介质并重新启动系统。

    1. 从顶部菜单中,单击 Remote Control,然后单击 Launch KVM

      _images/console-redirection.jpg
    2. 单击 Java Console 以打开远程 JViewer 窗口。确保为此站点禁用弹出窗口阻止程序。

    3. 从 JViewer 顶部菜单栏中,单击 Media,然后选择 Virtual Media Wizard

      _images/bmc-dgx2-start-media.png
    4. 在虚拟介质对话框的 CD/DVD Media: I 部分中,单击 Browse,然后找到系统上的 Red Hat Enterprise Linux ISO 文件,然后单击 Open。您可以忽略虚拟介质向导底部的设备重定向警告,因为它不影响重新映像系统的能力。

  3. 单击 Connect CD/DVD,然后在信息对话框中单击 OK。虚拟介质窗口显示 ISO 映像已连接。

    _images/vm-window.jpg
  4. 关闭窗口。菜单栏中的 CD ROM 图标变为绿色,表示 ISO 映像已附加。

    _images/cd-rom-icon.jpg

    从顶部菜单中,单击 Power,然后选择 Reset Server。

    _images/reset-server.jpg
  5. 在 Power Control 对话框中单击 Yes,然后单击 OK,然后等待系统断电并重新联机。

  6. 引导 CD ROM 映像

  7. 默认启动顺序通常不引导 CDROM 映像。这可以在 BIOS 中更改,也可以在启动菜单中作为一次性选项更改。要调出启动菜单,请在启动过程开始时按 F11。按 F11 将在进入启动菜单之前在虚拟显示器顶部显示 Show Boot Options。如果按下物理键没有效果,请使用“软”键盘(Menu → Keyboard Layout → SoftKeyboard → {Language})调出虚拟键盘。

    _images/nv-splash-screen.png
  8. 在启动菜单中,选择 UEFI: AMI Virtual CDROM 1.00 作为启动设备,然后按 ENTER

    _images/dgxa100-sbios-select-boot-device.png
  9. 按照安装 Red Hat Enterprise Linux中的说明进行操作

在 DGX-2、DGX A100/A800 或 DGX H100 上远程引导 ISO 映像#

如果您使用显示器和键盘进行本地安装,请跳过本章。

  1. 连接到 BMC 并确保设置了所需的用户权限。

    1. 在您的 LAN 中打开浏览器,然后转到 https://<BMC-ip-address>/,然后登录。

    2. 从左侧菜单中,单击 Settings,然后选择 User Management

    3. 单击包含您为 BMC 创建的用户名的卡片。

    4. 用户管理配置对话框中,确保选中 VMedia Access 复选框,然后单击 Save

      _images/bmc-dgx2-user-access.png
  2. 将 ISO 映像设置为虚拟介质。

    1. 从左侧菜单中,单击 Remote Control

      _images/bmc-dgxa100-remote-control.png
    2. 选择 Launch KVM

      _images/bmc-launch-kvm-dgxa100.png
    3. 从 KVM 窗口的顶部菜单栏中,单击 Browse File 并选择 ISO 映像,然后单击 Start Media

      _images/bmc-dgx2-start-media.png

      CD 映像现在应该已连接。

      _images/bmc-dgx2-media-connected.png
    4. 从 KVM 窗口的顶部菜单栏中,单击 Power,然后选择 Reset Server

  3. 从虚拟介质启动。

    通常,默认启动顺序不引导 CDROM 映像。您可以在 BIOS 中更改此设置,也可以在启动菜单中将其作为一次性选项更改。

    1. 要调出启动菜单,请在启动过程开始时按 F11

      F11 将在进入启动菜单之前在虚拟显示器中显示 Entering Boot Menu

      _images/dgx2-boot-screen.png
    2. 在启动菜单中,选择 UEFI: AMI Virtual CDROM0 1.00 作为启动设备,然后按 ENTER

      _images/dgxa100-sbios-select-boot-device.png

      如果您从 DGX-2 启动,则启动设备标记为 UEFI: Virtual CDROM0 1.00

      _images/dgx-2-sbios-select-boot-device.png
    3. 按照安装 Red Hat Enterprise Linux中的说明进行操作

安装 Red Hat Enterprise Linux#

本节假设您已引导 Red Hat Enterprise Linux ISO 映像。对于 DGX Station,这只能本地执行;对于所有其他平台,这可以本地远程执行。

如果您希望使用 Kickstart 文件自动执行安装,请参阅使用 Kickstart 安装部分

  1. 引导 ISO 映像后,将出现安装程序的 GRUB 菜单。

    _images/install-rhel.png
  2. 选择 Install Red Hat Enterprise Linux 并按 'e' 编辑所选选项。

    1. 添加 “nomodeset” 参数,如下所示。

      “nomodeset” 阻止加载内置 Nouveau 驱动程序,因为它可能无法正确支持 DGX 系统中使用的 GPU,从而导致显示问题。

      _images/install-rhel-params-dgx-station.png
    2. Ctrl-x 保存更改并开始安装。

  3. 有关使用 RHEL 8 安装程序的指南,请参阅执行标准 RHEL 8 安装

  4. 安装摘要 屏幕配置语言、区域、日期、时间、键盘和您可能需要的其他配置选项。

  5. 软件选择 设置为正确的值。

    • 对于 DGX Station、DGX Station A100/A800、DGX Station A100 和 DGX Station A800:设置为 带 GUI 的服务器

    • 对于 DGX 服务器(DGX 1-1、DGX-2、DGX A100/A800、DGX H100):设置为 最小安装

    注意

    设置正确的软件选择对于正常运行至关重要。

    _images/rhel8-installation-summary.png
  6. 根据平台以及您是否要使用加密来分区磁盘

  7. 配置以太网。

    网络 & 主机名 部分,选择并启用以太网设备。这默认为 DHCP,可以在 配置 下更改为静态 IP 配置。

    _images/network-host-name.png
  8. 安装摘要 屏幕,设置您的密码(在 用户设置 > 根密码 中)并创建一个新用户(在 用户设置 > 用户创建 中),然后单击 开始安装 以开始安装。

    _images/rhel8-install-summ-destination.png

    当系统重新启动时,请务必弹出任何仍然挂载的安装光盘。

  9. 完成 Red Hat Enterprise Linux 的初始设置。

    • 如果您使用带 GUI 的服务器基本环境安装,则初始设置会自动启动,您可以在其中接受许可协议并注册系统。有关详细信息,请参阅Red Hat 说明

    • 如果您使用的是 CentOS,则需要接受许可协议。

    • 如果您使用任何其他基本环境安装,请以 root 用户身份登录系统,然后注册系统。

      subscription-manager register --auto-attach --username=user_name --password=password
      
    • 为了防止意外升级 Linux 内核,例如从 RHEL 8.9 升级到 8.10,当该内核的预编译 GPU 模块和驱动程序不可用时,您应该通过设置 release 命令的 --set=<release> 选项来固定所需的 RHEL 版本。

      例如,要保持在 RHEL 8.9 版本

      subscription-manager release --set=8.9
      

      在更改 –set=<release> 设置并执行 sudo dnf update –-nobest 之前,您应该查看NVIDIA DGX 软件 Red Hat Enterprise Linux 8 发行说明以了解 GPU 驱动程序和 Linux 内核支持。

有关更多信息,请参阅如何使用 Red Hat Subscription-Manager 注册系统并订阅 Red Hat 客户门户

使用 Kickstart 安装#

使用 Kickstart 安装#

Kickstart 提供了一种通过提供包含安装过程中会询问的问题的答案的文件来自动化安装过程的方法。 NVIDIA 在以下位置为所有支持的平台提供 Kickstart 模板

在这些文件中,您必须将标记替换为您的站点特定信息:语言、键盘、时区、主机名等。每个标记的格式为 <CHANGE_YOUR_xxxx>。这些标记必须替换为您的特定信息。

在您获得为您的安装定制的 Kickstart 文件后,将该文件放置在可以通过 NFS、FTP、HTTP 或 HTTPS 访问的位置。从安装介质启动后,当 grub 菜单出现时,按 'e' 编辑 grub 条目,就像您通常添加 “ nomodeset ” 选项一样。除了 “ nomodeset ” 之外,还添加一个格式为 “ inst.ks=<URL> ” 的选项。例如:inst.ks=https://192.168.1.2/kickstart/dgx-a100-cfg.ks

最后,在使用这些 Kickstart 文件后 – 记住最后一次重新启动系统以应用所有设置。

有关将 Kickstart 文件与 Red Hat 8 一起使用的更多信息,请参阅 Red Hat 文档中的27.2. 如何执行 Kickstart 安装?部分。

DGX-1、DGX Station、DGX Station A100 和 DGX Station A800 的磁盘分区#

注意

以下部分中的屏幕截图取自 DGX-1。DGX Station、DGX Station A100 和 DGX Station A800 安装的屏幕可能会显示略有不同的信息,例如磁盘大小、可用磁盘空间、接口名称等。

  1. 安装目标位置 屏幕上,选择要安装的第一个驱动器 (sda)。

    存储配置 下,单击 自定义 单选按钮,然后单击 完成

    这将打开 手动分区 窗口。

  2. 展开您选择的设备的下拉菜单,并删除所有现有分区,直到没有剩余分区为止。

  3. 单击左下角的 + 按钮以创建新分区。

    创建大小为 512 MiB 的 /boot/efi 分区。

  4. 为设备类型选择 标准分区

    设备 下,确保仅选择您在步骤 1 中选择的驱动器。单击更新设置以确认您的更改。

  5. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建 / 分区,这次将 所需容量 字段留空。这使安装程序知道使用磁盘的剩余容量。

  6. 对于 / 分区,再次为设备类型选择 标准分区

    设备 下,确保仅选择您在步骤 1 中选择的驱动器。对于文件系统,选择 XFS。单击 更新设置 以确认您的更改。

  7. 单击 完成

    这会导致底部出现黄色警告栏,因为未创建交换分区。

  8. 再次单击 完成,然后单击 接受更改 以将我们所有的自定义设置写入磁盘。

  9. 返回安装 Red Hat Enterprise Linux部分中的步骤 5。

DGX-1、DGX Station、DGX Station A100 和 DGX Station A800 的加密磁盘分区#

注意

以下部分中的屏幕截图取自 DGX-1。DGX Station、DGX Station A100 和 DGX Station A800 安装的屏幕可能会显示略有不同的信息,例如磁盘大小、可用磁盘空间、接口名称等。

  1. 安装目标位置 屏幕上,选择第一个驱动器 (sda) 进行安装。在 存储配置 下,单击 自定义 单选按钮,然后单击 完成

    这将打开 手动分区 窗口。

  2. 展开您选择的设备的下拉菜单,并删除所有现有分区,直到没有剩余分区为止。

  3. 单击左下角的 + 按钮以创建新分区。

    创建大小为 512 MiB 的 /boot/efi 分区。

  4. 为设备类型选择 标准分区

    设备 下,确保仅选择您在步骤 1 中选择的驱动器。

    单击 更新设置 以确认您的更改。

  5. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建大小为 2 GiB 的 /boot 分区。

  6. 对于 /boot 分区,再次为设备类型选择 标准分区

    设备 下,确保仅选择您在步骤 1 中选择的驱动器。对于文件系统,选择 XFS

    单击 更新设置 以确认您的更改。

  7. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建 / 分区,这次将 所需容量 字段留空。这使安装程序知道使用磁盘的剩余容量。

  8. 对于 / 分区,再次为设备类型选择 标准分区

    务必选中 加密 复选框,并为 LUKS 版本 选择 luks2

    对于 文件系统,选择 XFS。再次确认此分区使用您在步骤 2 中选择的两个设备。

    单击 更新设置 以确认您的更改。

    现在将出现一个提示,要求输入 LUKS 密码。

  9. 务必选择一个强而安全的密码。

    两次输入密码后,单击 保存密码短语

  10. 单击 完成

    这会导致底部出现黄色警告栏,因为未创建交换分区。

  11. 再次单击 完成,然后单击 接受更改 以将我们所有的自定义设置写入磁盘。

  12. 返回安装 Red Hat Enterprise Linux部分中的步骤 5。

DGX-2、DGX A100/A800 和 DGX H100 的磁盘分区#

注意

以下部分中的屏幕截图取自 DGX A100/A800。DGX-2 安装的屏幕可能会显示略有不同的信息,例如磁盘大小、可用磁盘空间、接口名称等。

  1. 安装目标位置 屏幕上,选择两个 M.2 磁盘(即 DGX-2 的 894.25GB 驱动器或 DGX A100/A800 的 1.8 TB 驱动器)。

    存储配置 下,单击 自定义 单选按钮,然后单击 完成

    这将打开 手动分区 窗口。

  2. 展开您选择的设备的下拉菜单,并删除所有现有分区,直到没有剩余分区为止。

  3. 单击左下角的 + 按钮以创建新分区。

    创建大小为 512 MiB 的 /boot/efi 分区。

  4. 设备类型 更改为 RAID,将 RAID 级别 更改为 RAID1,然后单击 更新设置 并确认此分区覆盖了您在步骤 2 中选择的两个设备。

  5. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建 / 分区,这次将 所需容量 字段留空。这使安装程序知道使用磁盘的剩余容量。

  6. 对于 / 分区,再次为 设备类型RAID1RAID 级别 选择 RAID

    对于 文件系统,选择 XFS

    单击 更新设置 以确认此分区使用您在步骤 2 中选择的两个设备。

  7. 单击 完成

    这会导致底部出现黄色警告栏,因为未创建交换分区。

  8. 再次单击 完成,然后单击 接受更改 以将我们所有的自定义设置写入磁盘。

  9. 返回安装 Red Hat Enterprise Linux部分中的说明。

    这应该在配置以太网的步骤。

DGX-2、DGX A100/A800 和 DGX H100 的加密磁盘分区#

注意

以下部分中的屏幕截图取自 DGX A100/A800。DGX-2 安装的屏幕可能会显示略有不同的信息,例如磁盘大小、可用磁盘空间、接口名称等。

  1. 安装目标位置 屏幕上,选择两个 M.2 磁盘(即 DGX-2 的 894.25GB 驱动器或 DGX A100/A800 的 1.8 TB 驱动器)。

    存储配置 下,单击 自定义 单选按钮,然后单击 完成

    这将打开 手动分区 窗口。

  2. 展开您选择的设备的下拉菜单,并删除所有现有分区,直到没有剩余分区为止。

  3. 单击左下角的 + 按钮以创建新分区。

    创建大小为 512 MiB 的 /boot/efi 分区。

  4. 设备类型 更改为 RAID,将 RAID 级别 更改为 RAID1,并通过单击 设备 部分中的 修改 并确保仍选择了两个磁盘来确认此分区覆盖了您在步骤 2 中选择的两个设备。

    请注意,左侧的分区信息可能尚未反映两个设备。

    单击 更新设置 以确认您的更改,并验证显示的 /boot/efi 分区是否列出了分区名称而不是单个设备。

  5. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建大小为 2 GiB 的 /boot 分区。

  6. 对于 /boot 分区,再次为 设备类型RAID1RAID 级别 选择 RAID

    对于 文件系统,选择 XFS

    再次通过单击 设备 部分中的 修改 并确保仍选择了两个磁盘来确认此分区使用您在步骤 2 中选择的两个设备。

    单击 更新设置 以确认您的更改。

  7. 再次单击左下角的 + 按钮以创建另一个新分区。

    创建 / 分区,这次将 所需容量 字段留空。这使安装程序知道使用磁盘的剩余容量。

  8. 对于 / 分区,再次为设备类型、RAID1 和 RAID 级别选择 RAID。

    务必选中 加密 复选框,并为 LUKS 版本 选择 luks2

    对于 文件系统,选择 XFS。再次确认此分区使用您在步骤 2 中选择的两个设备。

    单击 更新设置 以确认您的更改,然后单击 完成 以开始退出分区菜单。

    现在将出现一个提示,要求输入 LUKS 密码。

  9. 务必选择一个强而安全的密码。

    两次输入密码后,单击 保存密码短语

  10. 单击 完成

    这会导致底部出现黄色警告栏,因为未创建交换分区。

  11. 再次单击 完成,然后单击 接受更改 以将我们所有的自定义设置写入磁盘。

  12. 返回安装 Red Hat Enterprise Linux部分中的步骤 5。