维护和维修 NVIDIA DGX-1

在尝试对 DGX-1 执行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。DGX-1 的这些条款和条件可通过 NVIDIA DGX 系统支持页面找到。

问题解决和客户服务

登录 NVIDIA 企业支持站点,以获得有关故障排除、诊断或报告 DGX-1 问题方面的帮助。

有关其他联系信息,请参阅NVIDIA DGX-1 的客户支持

有关如何获取 BMC 日志文件以协助故障排除的说明,请参阅提交 BMC 日志文件

恢复 DGX-1 软件映像

如果 DGX-1 软件映像损坏或 OS SSD 在故障后被更换,请从映像的原始副本将 DGX-1 软件映像恢复到其原始出厂状态。

恢复 DGX-1 软件映像的过程如下

  1. 从 NVIDIA 企业支持获取包含映像的 ISO 文件,如获取 DGX-1 软件 ISO 映像和校验和文件中所述。
  2. 通过 BMC 远程或从可引导 USB 闪存驱动器本地从此文件恢复 DGX-1 软件映像。

获取 DGX-1 软件 ISO 映像和校验和文件

为确保您恢复最新可用版本的 DGX-1 软件映像,请从 NVIDIA 企业支持获取当前的 ISO 映像文件。映像随附校验和文件,以便您验证从映像文件创建的可引导安装介质。
  1. 登录 NVIDIA 企业支持站点。
  2. 单击公告选项卡,找到 DGX-1 软件映像的下载链接。
  3. 下载 ISO 映像及其校验和文件,并将它们保存到您的本地磁盘。 ISO 映像也以存档文件形式提供。如果您下载存档文件,请务必先提取 ISO 映像,然后再继续。

远程重新映像系统

这些说明描述了如何通过 BMC 远程重新映像系统。有关如何本地恢复系统的信息,请参阅从 USB 闪存驱动器重新映像系统

在远程重新映像系统之前,请确保正确的 DGX-1 软件映像已保存到您的本地磁盘。有关更多信息,请参阅获取 DGX-1 软件 ISO 映像和校验和文件
注意: DGX-1 BMC 使用 JViewer 查看控制台。要在 Mac OS 上使用 JViewer,请先安装 XQuartz,可从 https://www.xquartz.org 获取。
  1. 连接到 BMC 并更改用户权限。
    1. 在您的 LAN 中打开一个启用 Java 的 Web 浏览器,然后转到 http://IPMI-IP-address/,然后登录。

      使用 Firefox 或 Internet Explorer。BMC 未正式支持 Google Chrome。

    2. 从顶部菜单中,单击配置,然后选择用户管理
    3. 选择您为 BMC 创建的用户名,然后单击修改用户
    4. 修改用户对话框中,选中VMedia复选框以将其添加到用户的扩展权限,然后单击修改



  2. 将 ISO 映像设置为虚拟介质。
    1. 从顶部菜单中,单击远程控制,然后选择控制台重定向



    2. 单击Java 控制台以打开远程 JViewer 窗口。 确保为此站点禁用弹出窗口阻止程序。
    3. 从 JViewer 顶部菜单栏中,单击介质,然后选择虚拟介质向导





    4. CD/DVD 介质:I部分的虚拟介质对话框中,单击浏览,然后找到重新映像 ISO 文件,并单击打开

      您可以忽略虚拟介质向导底部的设备重定向警告,因为它不影响重新映像系统的能力。

    5. 单击连接 CD/DVD,然后在信息对话框中单击确定

      虚拟介质窗口显示 ISO 映像已连接。





    6. 关闭窗口。

      菜单栏中的 CD-ROM 图标变为绿色,表示 ISO 映像已连接。





  3. 重新启动,安装映像,并完成 DGX-1 设置。
    1. 从顶部菜单中,单击电源 ,然后选择重置服务器



    2. 电源控制对话框中单击,然后单击确定,然后等待系统断电并重新联机。
    3. 在启动选择屏幕上,选择安装 DGX Server

      如果您是不使用 RAID 磁盘作为缓存的高级用户,并且想要保留 RAID 磁盘上的数据,则选择安装 DGX Server 而不格式化 RAID。 请参阅在安装 OS 时保留 RAID 分区部分,了解更多信息。

    4. Enter

      DGX-1 将从 CDROM0 1.00 重新启动,并开始安装映像。这可能需要大约 15 分钟。

      注意: Mellanox InfiniBand 驱动程序安装可能需要长达 10 分钟。

      安装完成后,系统将弹出虚拟 CD,然后重新启动到 OS。

有关首次在全新安装后启动 DGX-1 时要采取的步骤,请参阅设置 DGX-1

创建可引导安装介质

从 NVIDIA 企业支持获取包含 DGX OS Server 软件映像的 ISO 文件后,创建一个可引导安装介质,例如包含该映像的 USB 闪存驱动器或 DVD-ROM。

注意: 如果您要通过 BMC 远程恢复软件映像,则不需要可引导安装介质,可以省略此任务。
  • 如果要创建可引导 USB 闪存驱动器,请按照您正在使用的平台的说明进行操作
  • 如果要创建可引导 DVD-ROM,可以使用 在 DVD 上刻录 ISO 中描述的任何方法,该链接指向 Ubuntu 社区帮助 Wiki。
    注意: 包含某些 DGX OS Server 版本的软件映像的 ISO 文件大于单层 DVD-ROM 的 4.7 GB 容量。您无法从可引导 DVD-ROM 安装这些版本,因为支持从双层 DVD-ROM 安装 DGX OS Server。在创建可引导 DVD-ROM 之前,请检查包含 DGX OS Server 软件映像的 ISO 文件的大小。

使用 dd 命令创建可引导 USB 闪存驱动器

在 Linux 系统上,您可以使用 dd 命令创建一个包含 DGX-1 软件映像的可引导 USB 闪存驱动器。

注意: 为确保生成的闪存驱动器可引导,请使用 dd 命令执行映像的设备位复制。如果您使用其他命令执行映像的简单文件复制,则生成的闪存驱动器可能不可引导。

确保满足以下先决条件

  • 正确的 DGX-1 软件映像已保存到您的本地磁盘。有关更多信息,请参阅获取 DGX-1 软件 ISO 映像和校验和文件
  • USB 闪存驱动器满足以下要求
    • USB 闪存驱动器的容量至少为 8 GB。
    • USB 闪存驱动器上的分区方案是 UEFI 的 GPT 分区方案。
  1. 将 USB 闪存驱动器插入 Linux 系统的 USB 端口之一。
  2. 运行 lsblk 命令获取 USB 闪存驱动器的设备名称。
    lsblk

    您可以从其大小(远小于 DGX-1 中 SSD 的大小)以及驱动器上任何分区的挂载点(位于 /media 下)来识别 USB 闪存驱动器。

    在以下示例中,USB 闪存驱动器的设备名称为 sde

    ~$ lsblk
    NAME   MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
    sda      8:0    0   1.8T  0 disk
    |_sda1   8:1    0   121M  0 part /boot/efi
    |_sda2   8:2    0   1.8T  0 part /
    sdb      8:16   0   1.8T  0 disk
    |_sdb1   8:17   0   1.8T  0 part
    sdc      8:32   0   1.8T  0 disk
    sdd      8:48   0   1.8T  0 disk
    sde      8:64   1   7.6G  0 disk
    |_sde1   8:65   1   7.6G  0 part /media/deeplearner/DGXSTATION
    ~$
  3. 以 root 用户身份,转换映像并将其复制到 USB 闪存驱动器。
    sudo dd if=path-to-software-image bs=2048 of=usb-drive-device-name
    小心
    dd 命令会擦除您在命令的 of 选项中指定的设备上的所有数据。为避免数据丢失,请确保您指定了 USB 闪存驱动器的正确路径。

使用 Akeo Rufus 创建可引导 USB 闪存驱动器

在 Windows 系统上,您可以使用 Akeo Reliable USB Formatting Utility (Rufus) 创建一个包含 DGX OS 软件映像的可引导 USB 闪存驱动器。

确保满足以下先决条件

  1. 将 USB 闪存驱动器插入 Windows 系统的 USB 端口之一。
  2. 下载并启动 Akeo Reliable USB Formatting Utility (Rufus)



  3. 驱动器属性中,选择以下选项:
    1. 启动选择中,单击选择,找到并选择 DGX OS 软件映像。
    2. 分区方案中,选择GPT
    3. 目标系统中,选择UEFI (非 CSM)
  4. 格式化选项中,选择以下选项:
    1. 文件系统中,选择NTFS
    2. 簇大小中,选择4096 字节(默认)
  5. 单击开始 由于映像是混合 ISO 文件,系统会提示您选择是以 ISO 映像(文件复制)模式还是 DD 映像(磁盘映像)模式写入映像。



  6. 选择以 ISO 映像模式写入,然后单击确定

从 USB 闪存驱动器重新映像系统

这些说明描述了如何从 USB 闪存驱动器重新映像系统。有关如何远程恢复系统的信息,请参阅远程重新映像系统

在从 USB 闪存驱动器重新映像系统之前,请确保您有一个包含当前 DGX-1 软件映像的可引导 USB 闪存驱动器。

小心
安装 DGX-1 软件映像会擦除 OS SSD 上存储的所有数据。存储所有用户文档、软件设置、书签和其他个人文件的分区位于 OS SSD 上,将被擦除。但是,如果您选择安装 DGX-1 软件并保留 RAID 阵列内容,则 RAID 阵列中存储的持久性数据将不会受到影响。
  1. 将包含 OS 映像的 USB 闪存驱动器插入 DGX-1。
  2. 将显示器和键盘直接连接到 DGX-1。
  3. 启动系统,并在出现 NVIDIA 徽标时按 F11 进入启动菜单。
  4. 选择与插入的 USB 闪存驱动器对应的 USB 卷名,并从中启动系统。
  5. 当系统启动时,从 GRUB 菜单中选择以下选项之一。
    • 安装 DGX OS <版本>:安装 DGX OS 并重新格式化数据 RAID
    • 安装 DGX OS <版本> 而不重新格式化数据 RAID
    • 高级安装选项:如果您想要使用加密的根文件系统进行安装,请选择此项,然后选择以下选项之一。
      • 安装 DGX OS <版本> 并使用加密的根目录
      • 安装 DGX OS <版本> 并使用加密的根目录,且不重新格式化数据 RAID

    如果您是不使用 RAID 磁盘作为缓存的高级用户,并且想要保留 RAID 磁盘上的数据,则选择包含 不重新格式化 RAID 的选项。 请参阅在安装 OS 时保留 RAID 分区部分,了解更多信息。

  6. Enter

DGX-1 将重新启动并开始安装映像。这可能需要超过 15 分钟。

注意: Mellanox InfiniBand 驱动程序安装可能需要长达 10 分钟。

安装完成后,系统将重新启动到 OS。

有关首次在全新安装后启动 DGX-1 时要采取的步骤,请参阅设置 DGX-1

在安装 OS 时保留 RAID 分区

此信息描述了从 DGX OS Server 3.1.1 开始提供的安装选项。

重新映像过程会创建一个全新的 DGX OS 安装。在 OS 安装或重新映像过程中,当启动安装程序映像时,您会看到一个启动菜单。默认选择是安装 DGX 软件。然后,安装过程将重新分区所有 SSD,包括 OS SSD 以及 RAID SSD,并且 RAID 阵列将挂载为 /raid。这将覆盖 OS 磁盘以及 RAID 磁盘上可能存在的任何数据或文件系统。

由于 DGX-1 上的 RAID 阵列旨在用作缓存,而不是用于长期数据存储,因此这不应造成破坏。但是,如果您是高级用户,并且已将磁盘设置为非缓存用途,并且想要保留这些驱动器上的数据,则在启动安装期间在启动菜单中选择 安装 DGX Server 而不格式化 RAID 选项。此选项保留 RAID 磁盘上的数据,并执行以下操作

  • 安装缓存守护程序,但通过注释掉 /etc/default/cachefilesd 中的 RUN=yes 行来使其保持禁用状态。
  • 创建 /raid 目录,通过注释掉 /etc/fstab 中包含“/raid”的条目,将其排除在文件系统表之外。
  • 不格式化 RAID 磁盘。
安装完成后,您可以重复您执行的任何配置步骤,以将 RAID 磁盘用作缓存磁盘以外的磁盘。
您始终可以选择稍后通过启用 cachefilesd 并将 /raid 添加到文件系统表,来将 RAID 磁盘用作缓存磁盘,如下所示
  1. 取消注释 /etc/default/cachefilesd 中的 #RUN=yes 行。
  2. 取消注释 etc/fstab 中的 /raid 行。
  3. 运行以下命令:
    1. 挂载 /raid。
      sudo mount /raid
    2. 重新加载 systemd 管理器配置。
      systemctl daemon-reload
    3. 启动缓存守护程序。
      systemctl start cachefilesd.server

这些更改将在系统重启后保留。

更新系统 BIOS

您可以远程通过 BMC 更新系统 BIOS。在更新系统 BIOS 之前,必须按照本节中的说明通过 BMC 关闭系统。

注意: NVIDIA 建议使用 NVIDIA 提供的 Docker 容器更新 SBIOS。有关说明,请参阅使用固件更新容器部分。
  1. 获取 BIOS 映像。
    1. 登录 NVIDIA 企业支持,然后单击公告选项卡以找到 DGX-1 软件映像存档。
    2. 下载映像存档,然后提取 .bin 文件。
  2. 登录 BMC 并关闭 DGX-1。
    1. 在您的 LAN 中打开一个启用 Java 的 Web 浏览器,然后转到 http://<IPMI-IP-address>/, 然后登录。

      使用 Firefox 或 Internet Explorer。BMC 未正式支持 Google Chrome。

    2. 从顶部菜单中,单击远程控制,然后选择服务器电源控制
    3. 电源控制和状态屏幕上,选择关闭服务器电源 - 有序关机选项,然后单击执行操作

      您可以通过注意到除了开启服务器电源选项之外,所有电源控制和状态选项都灰显来验证 DGX-1 是否已关闭。

  3. 更新系统 BIOS。
    1. 从顶部菜单中,单击固件更新,选择BIOS 更新,然后单击进入更新模式

    2. 您确定要进入更新模式吗?对话框中单击确定
    3. BIOS 上传屏幕上,在选择要上传的固件 步骤中单击浏览,然后导航资源管理器窗口以找到您下载的文件并选择它。

    4. 确保清除选择保留配置下的所有复选框。 这确保 BIOS 恢复为其故障安全默认设置,以实现可靠的更新。
    5. 单击上传固件以开始安装更新后的 BIOS 的过程。

      系统会要求您等待,直到映像被验证。

    6. 继续?对话框中单击确定以开始实际的升级过程。

      BIOS 闪存状态 屏幕显示升级进度,这应该需要几分钟才能完成。

      注意: 一旦升级过程开始,请勿中断升级过程。
  4. 升级过程完成后,您可以使用顶部菜单重新开启系统电源。
    1. 从顶部菜单中,单击远程控制,然后选择服务器电源控制
    2. 选择开启服务器电源选项,然后单击执行操作
  5. 要验证 BIOS 是否已使用正确的文件更新,请在系统重新启动时按 [F2][Del] 进入 BIOS 设置屏幕,然后将项目版本与更新文件名进行比较。

更新 BMC

您可以使用 IPMI 端口远程更新 BMC。应用程序可以保持运行。电源必须保持开启。

注意: NVIDIA 建议使用 NVIDIA 提供的 Docker 容器更新 BMC。有关说明,请参阅使用固件更新容器部分。
  1. 获取 BMC 映像。
    1. 登录 NVIDIA 企业支持,然后单击公告选项卡以找到 DGX-1 软件映像存档。
    2. 下载映像文件。
  2. 在您的 LAN 中打开一个启用 Java 的 Web 浏览器,然后转到 http://<IPMI IP 地址>/, 然后登录到 BMC。

    使用 Firefox 或 Internet Explorer。BMC 未正式支持 Google Chrome。

  3. 如果您正在使用 DHCP 并且选择不保留网络配置,则获取 BMC 的 MAC 地址。

    如果 BMC 通过 DHCP 连接到网络,则 IP 地址可能会在更新后更改。如果 IP 地址更改,请按照以下子步骤获取 MAC 地址,以便连接到 BMC。如果使用静态 IP,则可以跳过这些步骤。

    1. 从顶部菜单中,单击配置,然后选择网络
    2. 记下 MAC 地址。
  4. 从顶部菜单中,单击固件更新,然后从下拉菜单中选择固件更新
  5. 单击进入保留配置,然后将 IPMI 和网络保留状态设置为保留,并将所有其他项设置为覆盖

    注意: 务必将 IPMI 设置为保留,以保留您的 BMC 登录凭据。如果您未能这样做,则 BMC 用户名/密码将设置为 qct.admin/qct.admin。如果发生这种情况,请务必进入 BMC 仪表板,然后转到配置->用户,以在更新 BMC 后添加新的用户帐户并禁用 qct.admin 帐户。
  6. 如有必要,再次从顶部菜单单击固件更新,然后从下拉菜单中选择固件更新,以返回到固件更新页面。
  7. 单击进入更新模式,然后在确认对话框中单击确定

    进入更新模式后,中止操作甚至调整浏览器窗口大小都将终止会话并重置 BMC。如果发生这种情况,您将需要关闭然后重新打开浏览器以启动新会话。您可能需要等待几分钟才能重置 BMC。

  8. 上传固件提示符下,单击浏览以找到并选择固件映像文件。

    选择加密文件(文件扩展名带有“_enc”后缀的文件),因为 BMC 要求固件映像已加密。

  9. 单击上传以将映像传输到 BMC。
  10. 选择基于固件的更新提示符下,选择完整闪存,然后单击继续

    注意:重要提示:在更新 BMC 时,请勿关闭 DGX-1 的电源。如果 BMC 更新失败,请保持 DGX-1 电源开启并启动,然后联系 NVIDIA 企业支持。
  • 当 BMC 固件更新完成时,BMC 会重置,并且远程会话终止。
  • 要启动新的 BMC 会话,请关闭然后重新打开浏览器。
  • BMC 重置自身可能需要 10 分钟之久。在此期间,BMC 将无响应。

使用固件更新容器更新组件固件

本节提供有关使用 Docker 容器更新 NVIDIA® DGX 服务器 BIOS、BMC 和电源固件的说明。这是 更新 BIOS更新 BMC 部分中提供的说明的替代方法。

通用固件更新指南

  • 在更新固件之前,请执行以下操作,以防止因系统崩溃或更新过程中断而损坏固件。
    • 确保系统运行状况良好
    • 停止系统活动
  • 更新固件时,请勿终止固件更新控制台。

    如果更新过程被中断,可能会发生组件固件损坏。

  • 某些组件(例如系统 BIOS)需要重新启动系统才能使新固件生效。

    如果出现提示,请重新启动系统。

  • 如果固件更新失败,请收集以下日志以进行故障分析:
    • /var/log/syslog
    • /var/log/nvidia-fw.log

获取固件更新容器

NVIDIA DGX 系统固件更新实用程序以 tar ball 文件和 .run 文件的形式提供。将文件复制到 DGX 系统,然后使用以下三种方法之一更新固件:
  • NVSM 提供便捷的命令来使用固件更新容器更新固件
  • 使用 Docker 运行固件更新容器
  • 使用 .run 文件,这是一个自解压软件包,其中嵌入了固件更新容器 tarball

使用 NVSM

NVIDIA DGX-1 系统软件包括运行容器所需的 Docker 软件。

  1. 将 tar ball 复制到 DGX 系统上的某个位置。
  2. 从复制 tarball 文件的目录中,输入以下命令以加载容器镜像。
    $ sudo docker load -i nvfw-dgx1_19.10.7.tar.gz 
  3. 要验证容器镜像是否已加载,请输入以下命令。
    $ sudo docker images
    
    REPOSITORY    TAG
    nvfw-dg1      19.10.7
  4. 使用 NVSM 交互模式,进入固件更新模块。
    $ sudo nvsm
    nvsm-> cd systems/localhost/firmware/install
  5. 设置与您要执行的操作对应的标志。
    $ nvsm(/system/localhost/firmware/install)-> set Flags=<option>
    

    有关各个标志和参数的详细信息,请参阅本章的其余部分。

  6. 运行命令。
    $ nvsm(/system/localhost/firmware/install)-> start
    

使用 Tar Ball 文件

NVIDIA DGX-1 系统软件包括运行容器所需的 Docker 软件。

  1. 将 tar ball 复制到 DGX 系统上的某个位置。
  2. 从复制 tarball 文件的目录中,输入以下命令以加载容器镜像。
    $ sudo docker load -i nvfw-dgx1_19.10.7.tar.gz 
  3. 要验证容器镜像是否已加载,请输入以下命令。
    $ sudo docker images
    
    REPOSITORY    TAG
    nvfw-dg1      19.10.7
  4. 使用以下语法运行容器镜像。
    $ sudo docker run --rm --privileged -ti -v /:/hostfs nvfw-dgx1:19.10.7 <command> <[arg1] [arg2] ... [argn]

有关各个标志和参数的详细信息,请参阅本章的其余部分。

使用 .run 文件

从固件容器版本 19.04.1 开始,还提供 .run 文件来运行固件更新容器。.run 文件是一个自解压软件包,其中嵌入了固件更新容器 tarball。使用 .run 文件需要 DGX OS Server 4.0.5 或更高版本。

获取 .run 文件后,使该文件可执行。
$ chmod +x nvfw-dgx1_19.10.7.run

使用以下语法运行容器镜像。

$ sudo nvfw-dgx1_19.10.7.run <command> <[arg1] [arg2] ... [argn]

有关各个标志和参数的详细信息,请参阅本章的其余部分。

查询固件清单

清单显示容器中嵌入的、经过 NVIDIA 认证的固件组件列表。

要查询固件清单,请输入以下命令

# sudo docker run --rm --privileged -v /:/hostfs <container-repository:tag> show_fw_manifest

查询当前安装的固件版本

显示容器支持的每个组件的板载固件版本级别。输出将显示哪些组件固件是最新的,或者是否需要更新到清单中列出的固件级别。

要查询版本信息,请输入以下命令。

# sudo docker run --privileged -v /:/hostfs <container-repository:tag> show_version

输出显示板载版本、清单中的版本以及固件是否为最新版本。

更新固件

您可以一次更新所有降级固件组件,也可以仅更新一个或多个组件。

命令语法

sudo docker run [-e AUTO=1] --privileged -ti -v /:/hostfs <container-repository:tag> update_fw [-f] <target>

其中 <target> 指定要更新的硬件,可以是

all
更新所有固件组件(SBIOS、BMC 和 PSU)

或以下一个或多个

SBIOS
更新 SBIOS
BMC
更新 BMC 固件
PSU
更新电源装置的固件
注意: 除了此处列出的组件外,可能还支持其他组件。查询固件清单以查看容器支持的所有组件。

该命令将扫描指定的固件组件,并更新任何降级组件。

有关 [-e AUTO=1] 和 [-f] 选项的说明,请参阅 其他选项 部分。

更新所有固件组件

以下说明是尝试使用容器 nvfw-dgx1:19.10.7 更新所有固件组件的示例。在此示例中,只有 SBIOS 和 BMC 需要更新。
  1. 输入以下命令。
    $ sudo docker run --rm --privileged -ti -v /:/hostfs nvfw-dgx1:19.10.7 update_fw all
    容器将扫描组件,然后在开始更新之前提示确认。
    Following components will be updated with new firmware version:
     SBIOS
     BMC
    IMPORTANT: Firmware update is disruptive and may require system reboot.
    Stop system activities before performing the update.
    Ok to proceed with firmware update? <Y/N>
  2. Y 继续。 更新成功完成后,将显示以下消息。
    Firmware update completed Component: SBIOS, update status: success, reboot required: yes
    Component: BMC, update status: success, new version: 3.20.30
  3. 如果更新消息指示,请重新启动系统。

更新特定固件组件

以下是使用容器 nvfw-dgx1:19.10.7 更新 PSU 固件的示例。
  1. 输入以下命令。
    $ sudo docker run --rm --privileged -ti -v /:/hostfs nvfw-dgx1:19.10.7 update_fw PSU
    容器将扫描组件,然后在开始更新之前提示确认。
    Following components will be updated with new firmware version:
     PSU 1
     PSU 2
     PSU 3
     PSU 4
    IMPORTANT: Firmware update is disruptive and may require system reboot.
    Stop system activities before performing the update.
    Ok to proceed with firmware update? <Y/N>
  2. Y 继续。 更新成功完成后,将显示以下消息。
    Firmware update completed
    Component: PSU, update status: success, new version: 00.03.07
  3. 如果更新消息指示,请重新启动系统。
您还可以更新所有组件的子集。例如,要同时更新电源固件和系统 BIOS,请输入以下命令
$ sudo docker run --rm --privileged -ti -v /:/hostfs nvfw-dgx1:19.10.7 update_fw PSU SBIOS

其他选项

强制固件更新

要更新固件,无论其是否为降级版本,请使用 -f 选项,如下所示。

$ sudo docker run --rm --privileged -ti -v /:/hostfs <container-repository:tag> update_fw -f <target>

容器将不会对照清单检查板载版本。

以非交互方式更新固件

运行容器的标准方式是交互式方式(-ti 选项)。容器将在启动更新之前提示您确认。

要更新固件而不遇到提示,请使用 -eAUTO=1-t 选项,如下所示。

$ sudo docker run -e AUTO=1 --rm --privileged -ti -v /:/hostfs <container-repository:tag> update_fw <target>

命令摘要

  • 显示清单。
    $ sudo docker run --rm --privileged -v /:/hostfs <container-repository:tag> show_fw_manifest
  • 显示版本信息。
    $ sudo docker run --rm --privileged -v /:/hostfs <ccontainer-repository:tag> show_version
  • 对照清单检查板载固件,并更新任何降级固件。
    $ sudo docker run --rm --privileged -ti -v /:/hostfs <container-repository:tag> update_fw <target>
  • 绕过版本检查并更新固件。
    $ sudo docker run --rm --privileged -ti -v /:/hostfs <container-repository:tag> update_fw -f <target>
  • 以非交互模式更新固件。
    $ sudo docker run --rm -e auto=1 --privileged -t -v /:/hostfs <container-repository:tag> update_fw <target>

移除容器

当不再需要容器和镜像时,请从 DGX 服务器中移除它们。要移除容器和镜像,请输入以下命令

$ sudo docker rmi -f <container-repository>

在这种情况下,仅指定容器存储库,而不指定标签。

使用 .run 文件

从固件容器版本 19.04.1 开始,还提供 .run 文件来运行固件更新容器。.run 文件是一个自解压软件包,其中嵌入了固件更新容器 tarball。 使用 .run 文件需要 DGX OS Server 4.0.5 或更高版本。

  1. 使用前,请使该文件可执行。
    $ chmod +x /<run-file-name>.run 
  2. 运行该文件。
    $ sudo ./<run-file-name>.run 
    此命令与使用 update_fw all 选项运行容器相同。

.run 文件接受与运行容器时使用的选项相同的选项。

 

示例:

显示清单。
$ sudo ./<run-file-name>.run show_fw_manifest
显示版本信息。
$ sudo ./<run-file-name>.run show_version
对照清单检查板载固件,并更新任何降级固件。
$ sudo ./<run-file-name>.run update_fw <target>
绕过版本检查并更新固件。
 $ sudo ./<run-file-name>.run  update_fw -f <target> 

更换系统和组件

在尝试对 DGX-1 执行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。DGX-1 的这些条款和条件可通过 NVIDIA DGX 系统支持页面找到。

请联系 NVIDIA 企业支持部门以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时,使用 NVIDIA 提供给您的替换件。

以下组件可由客户更换
  • 固态硬盘 (SSD)
  • 电源
  • 风扇模块
  • DIMM
  • 电池

将故障的高价值组件退回 NVIDIA。您无需退回低成本物品,例如 电池、电源和风扇

更换系统

退回 RMA 下的 DGX-1 时,请考虑以下几点。

SSD

如有必要,您可以在将系统运回以进行更换之前卸下并保留 SSD。如果您已经收到更换系统,并且想要保留原始 SSD,请在将有缺陷的系统运回时,将新的 SSD 安装到有缺陷的系统中。

挡板

确保在退回系统时包含挡板。

更换 SSD

从 DGX-1 的正面访问 SSD。您可以按如下方式热插拔 SSD

  1. 如果尚未卸下挡板,请抓住侧把手抓住挡板,然后将挡板从 DGX-1 的正面直接拉出。
    注意:小心卸下或安装挡板时,请注意不要意外按下 DGX-1 右边缘上的电源按钮。
  2. 找到要更换的 SDD,然后按下顶部边缘的圆形按钮以释放闩锁。
  3. 向下然后向外拉动闩锁,以松开 SSD 组件。



  4. 继续拉动 SSD 组件以将其完全从设备中移除。
  5. 使用十字螺丝刀,卸下将 SSD 固定到热插拔托架的四个螺丝。



  6. 保存螺丝以用于更换。
  7. 使用四个螺丝将更换 SSD 安装到热插拔托架上。 确保连接器位于托架的开口边缘侧。
  8. 顶部朝上放置圆形按钮,将组件插入相应的托架,然后将组件一直推入。
  9. 将闩锁压在组件上,以完全固定组件。
  10. 重新安装挡板。

    将挡板放置在 NVIDIA 徽标从正面可见且位于左侧的位置,将 DGX-1 角落附近的插针与挡板背面的孔对齐,然后轻轻地将挡板压在 DGX-1 上。挡板通过磁力固定到位。

    注意:小心卸下或安装挡板时,请注意不要意外按下 DGX-1 右边缘上的电源按钮。

重新创建虚拟驱动器

更换 OS SSD(无论是否更换了任何缓存 SSD)后,您需要重新创建虚拟驱动器,然后重新映像系统,以便在所有虚拟驱动器上重新创建分区。

以下是该过程的概述

  1. 清除驱动器组配置
  2. 重新创建 OS 虚拟驱动器
  3. 重新创建缓存虚拟驱动器
  4. 重新映像系统

这些说明仅适用于您更换了 OS SSD(无论是否更换了一个或多个缓存 SSD)的情况。如果您仅更换了一个或多个缓存 SSD,而没有更换 OS SSD,请按照 重新创建 RAID 0 阵列 部分中的说明进行操作

访问 BIOS 设置实用程序

RAID 配置通过 BIOS 设置实用程序完成。

  1. 将显示器(1024x768 或更低分辨率)和键盘连接到 DGX-1。
  2. 打开 DGX-1 或重新启动。
  3. 在 NVIDIA 徽标启动屏幕上,按 [F2][Del] 进入 BIOS 设置屏幕。

  4. 从顶部菜单中选择 Advanced 选项卡,然后向下滚动并选择 MegaRAID Configuration Utility

    将出现 RAID 配置菜单。

如果您更换了 OS 驱动器,请按照 清除驱动器组配置 部分中的说明进行操作。

清除驱动器组配置

这些说明适用于您更换了 OS 驱动器的情况。

  1. 选择 Main Menu,然后选择 Configuration Management

  2. 选择 Clear Configuration

  3. 选择 Confirm [Disabled],然后在确认弹出窗口中选择 Enabled

  4. 选择 Yes,然后在成功屏幕上选择 OK

  5. 按照 重新创建 OS 虚拟驱动器 部分和 重新创建 RAID0 虚拟驱动器 部分中的说明进行操作。

重新创建 OS 虚拟驱动器

这些说明适用于您更换了 OS 驱动器的情况。请务必先完成 清除驱动器组配置 部分中的说明。

  1. 导航到 RAID 实用程序主菜单,然后在“操作”下,选择“配置”,然后选择 Configuration Management

  2. 选择 Create Virtual Drive,然后在下一个屏幕上选择 Select Drives 将所有其他选项保留为默认设置,如下所示。

    CHOOSE UNCONFIGURED DRIVES 下的驱动器列表最初将为空。
  3. 要查看可用驱动器,请选择 Select Media Type [HDD],然后更改为 [SSD]

  4. CHOOSE UNCONFIGURED DRIVES 下,选择 446 GB 驱动器,然后在弹出对话框中更改为 [Enabled]

  5. 确认只有 Drive Port 0 - 3:01:00 上的第一个驱动器显示为 [Enabled]

  6. 向上滚动并选择 Apply Changes

  7. 在成功屏幕上选择 OK

    虚拟驱动器创建页面现在显示您的选择摘要。虚拟驱动器大小应约为 446 GB。
  8. 在菜单顶部选择 Save Configuration
  9. Confirm [Disabled] 字段更改为 [Enabled] ,然后选择 [Yes]

  10. 在成功屏幕上选择 [OK] 您已成功重新创建虚拟驱动器 0,操作系统将安装在此驱动器上。
  11. 按照 重新创建 RAID0 虚拟驱动器 部分中的说明进行操作

重新创建 RAID0 虚拟驱动器

这些说明适用于您更换了 OS 驱动器并清除了驱动器组配置的情况。

  1. 导航到 RAID 实用程序主菜单,然后在“操作”下,选择“配置”,然后选择 Configuration Management

  2. 选择 Create Virtual Drive

  3. 滚动到 Select RAID Level,如果尚未设置,则切换到 [RAID0]

  4. 滚动到 Select Media Type,然后切换到 [SSD]

  5. 选择 Select Drives

  6. 将所有未配置的 1TB 驱动器切换为 [Enabled]

  7. 选择 Apply Changes

  8. 将“确认”更改为 [Enabled],然后选择 Yes
  9. 在成功屏幕上选择 OK Create Virtual Drive 屏幕显示您的选择摘要。
  10. 验证摘要是否与您的选择匹配,然后选择 Save Configuration

  11. 确保 Confirm 设置为 [Enabled],然后选择 Yes 以确认更改。

  12. 在成功屏幕上选择 OK
  13. 确认并退出。
    1. 选择 View Drive Group Properties 以确认配置。

    2. 验证您的配置屏幕是否显示您有两个具有以下属性的虚拟驱动器: 大小为 446 GB(或非常接近)的虚拟驱动器 0,大小为 7 TB(或非常接近)的虚拟驱动器 1。

    3. 如果您的驱动器组与上述匹配,请按 [F10] 以保存这些设置并重置系统。
    4. 选择 Save Changes and Reset,然后在确认提示符下选择 Yes

  14. 按照 恢复 DGX-1 软件映像 部分中的说明创建分区。

重新创建 RAID 0 阵列

更换 RAID 0 缓存 SSD 之一后,您需要重新创建 RAID 0 阵列。如果您仅更换了缓存 SSD 而没有更换操作系统 SSD,则可以使用方便的脚本来重新创建 RAID 阵列。该脚本是 2.0.4 及更高版本 DGX-1 软件的一部分。
该脚本要求 DGX 系统上安装了 Broadcom StorCLI 实用程序。从 DGX OS Server 3.1.6 版本开始,DGX 软件中包含 StorCLI。有关在 DGX OS Server 3.1.6 之前的版本上安装该实用程序的说明,请参阅 NVIDIA 企业支持站点提供的文档 使用 StorCLI 重新创建 NVIDIA DGX-1 RAID 0 阵列
注意: 在重新创建 RAID 阵列之前启动 DGX-1 时,请将显示器(1024x768 或更低分辨率)和键盘连接到 DGX-1。这是因为系统可能会在 BIOS 屏幕上停止,并提醒您需要配置 RAID 阵列。按 C 键(或允许您继续的任何键)以完成启动过程。只有通过直接显示器和键盘连接操作 DGX-1,您才能执行此操作。
  1. 通过在命令行中输入以下命令来运行脚本
     $ sudo python /usr/bin/configure_raid_array.py -c -f 
  2. 脚本完成重新创建 RAID 0 阵列后,重新启动 DGX-1 以验证 /raid 是否已挂载且可用。

更换电源

从 DGX-1 的正面访问电源。使用下图帮助识别每个 PSU - ID 与 PSU 在 BMC 中的标识方式相对应。顶部的图像显示 PSU,底部的图像显示每个 PSU 对应的电源线位置。

您可以按如下方式热插拔电源

  1. 如果尚未卸下挡板,请抓住侧把手抓住挡板,然后将挡板从 DGX-1 的正面直接拉出。
    小心
    卸下或安装挡板时,请注意不要意外按下 DGX-1 右边缘上的电源按钮。
  2. 从风扇组件上的电源连接器上拔下电源线。
  3. 向外翻出电源手柄。



  4. 向左推动绿色释放杆,同时使用电源手柄拉出电源。
  5. 将更换电源滑入托架并推入到位。
  6. 向上翻转电源手柄,使其靠在电源上。
  7. 重新连接电源线。
    注意:重要提示:确保电源线扎带的末端未插入电源风扇。 电源线扎带可能会干扰风扇的正常运行,从而导致电源故障。
  8. 重新安装挡板。 将挡板放置在 NVIDIA 徽标从正面可见且位于左侧的位置,将 DGX-1 角落附近的插针与挡板背面的孔对齐,然后轻轻地将挡板压在 DGX-1 上。挡板通过磁力固定到位。
    注意:小心卸下或安装挡板时,请注意不要意外按下 DGX-1 右边缘上的电源按钮。

更换风扇模块

小心: 为避免系统过热,风扇模块应在移除后 25 秒内更换完毕。

  1. 拧下 DGX-1 正面的指旋螺丝,然后将 DGX-1 从机架中滑出大约一半。
  2. 挤压机箱顶部方形访问开口处的闩锁,然后翻开机箱顶部,露出风扇模块。



  3. 挤压要更换的风扇模块外边缘上的释放卡舌,然后向上拉以将风扇模块从设备中抬起。



  4. 使用相反的步骤更换新风扇模块。

更换电池

电池位于主板托架上,可从 DGX-1 的后部访问。

小心静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作面上。

  1. 关闭 DGX-1 并断开所有网络和电源线缆。
  2. 卸下主板托架。
    1. 找到 DGX-1 后部主板托架的锁定杆。

      有两组锁定杆。主板的锁定杆是底部一组。

    2. 向设备中心向内旋转固定夹。

      固定夹将锁定杆固定到位。向内旋转夹子会释放锁定杆。

    3. 向外摆动锁定杆,然后使用它们将主板托架拉出设备。

      请勿通过蓝色固定夹拉动设备;它们可能会断裂。
    4. 将主板托架放在清洁的工作面上,并将其放置在锁定杆位于顶部的方向,以便您向下看托架。

      电池位于托架的左上角,靠近边缘。

  3. 卸下电池。

    轻轻地将电池向右推,然后将其从板上抬起。

  4. 安装新的 CR2032 电池。

    将电池上的“+”符号朝向 PCI 总线线缆的右侧,以一定角度将电池插入插槽,然后轻轻地将电池向左推入到位。

  5. 小心地将主板托架插回设备,然后将锁定杆摆平靠在托架上,并使用固定夹将它们固定到位。
  6. 安装所有网络和电源线缆。
  7. 打开系统电源,然后按 [F2][Del] 进入 BIOS 设置屏幕。
  8. 导航到“Main”选项卡,然后在必要时设置“System Date”和“System Time”,然后按 [F10] 保存设置并重新启动。

更换 DIMM

在尝试更换任何双列直插内存模块 (DIMM) 之前,请确保您知道需要更换的故障 DIMM 的位置。位置 ID 是字母数字指示符,例如 A0、A1、B0、B1 等,并在 BMC 日志文件中报告。

小心静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作面上。

DIMM 位于主板托架上,可从 DGX-1 的后部访问。

  1. 关闭 DGX-1 并断开所有网络和电源线缆。
  2. 卸下主板托架。
    1. 找到 DGX-1 后部主板托架的锁定杆。 有两组锁定杆。主板的锁定杆是底部一组。

    2. 向设备中心向内旋转固定夹。

      固定夹将锁定杆固定到位。向内旋转夹子会释放锁定杆。
    3. 向外摆动锁定杆,然后使用它们将主板托架拉出设备。

      请勿通过蓝色固定夹拉动设备;它们可能会断裂。
    4. 将主板托架放在清洁的工作面上,并将其放置在锁定杆位于顶部的方向,以便您向下看托架。

      DIMM 位于托架左侧的印刷电路板上。
  3. 以下图示可用作指南,找到与 BMC 日志中报告的故障 DIMM 的 ID 对应的 DIMM。

  4. 卸下 DIMM。
    1. 按下 DIMM 插槽两端的侧面闩锁,使其远离 DIMM。 这应将 DIMM 从插槽中松开。
    2. 笔直向上拉动 DIMM,将其从插槽中移除。
  5. 小心地插入更换 DIMM。
    1. 确保插槽闩锁已打开。
    2. 将 DIMM 放置在插槽上方,确保 DIMM 上的凹口与插槽中的键对齐,然后将 DIMM 向下压入插槽,直到侧面闩锁卡入到位。
    3. 确保闩锁已向上锁定到位。
  6. 小心地将主板托架插回设备,然后将锁定杆摆平靠在托架上,并使用固定夹将它们固定到位。

安装/更换 10GbE Mezzanine SPF+ NIC

10GbE SPF+ NIC 可作为双端口 10GBASE-T 网络适配器 Mezzanine 的可选替代品。它位于主板托架上,可从 DGX-1 服务器的后部访问。

小心静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作面上。

  1. 关闭 DGX-1 服务器并断开所有网络和电源线缆。
  2. 卸下主板托架。
    1. 找到 DGX-1 后部主板托架的锁定杆。 有两组锁定杆。主板的锁定杆是底部一组。

    2. 向设备中心向内旋转固定夹。

      固定夹将锁定杆固定到位。向内旋转夹子会释放锁定杆。
    3. 向外摆动锁定杆,然后使用它们将主板托架拉出设备。

      请勿通过蓝色固定夹拉动设备;它们可能会断裂。
    4. 将主板托架放在清洁的防静电工作面上。
  3. 更换 NIC。
    1. 找到 NIC。

      10G NIC 位于主板托架的角落,靠近锁定杆。寻找丝印上的白色 Quanta 标签。

    2. 卸下上图中标出的四个螺丝,然后轻轻地将 NIC 从主板上抬起。
    3. 对齐新 NIC,使卡的插针位于主板上的夹层连接器上方,然后轻轻向下按,直到卡到达底部。
    4. 重新安装四个螺丝,将卡固定到主板。
    5. 小心地将主板托架插回设备,然后将锁定杆摆平靠在托架上,并使用固定夹将它们固定到位。
    6. 重新连接所有线缆并为系统供电。
  4. 验证安装。
    1. 检查是否没有 BMC 错误。
    2. 验证以太网连接。

      检查 10G NIC 卡上的 Link 和 Speed LED,查看链路是否处于活动状态(琥珀色 Link LED - 左侧)以及速度是否为 10Gb/s(绿色 Speed LED - 右侧)。

      使用以下命令检查操作系统级别是否识别到 10G NIC 卡。

      # lspci -nn | grep net

      使用以下命令检查设备是否已启动、检查状态以及验证 MTU 设置是否正确。

      # ip link show <device> 
      # ifconfig <device> 
      # ethtool -i <device>
       

更换 InfiniBand 卡

InfiniBand 卡位于 GPU 托架上,可从 DGX-1 的后部访问。确保您已识别出需要更换的故障 InfiniBand 卡。插槽的标识方式如下图所示。

小心静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作面上。

DGX-1 系统中安装的 InfiniBand 卡为 Mellanox CX455A 或 CX555A 型号。在向 NVIDIA 请求更换 InfiniBand 卡之前,请确定您需要订购的卡的型号。为此,请在 DGX-1 控制台上输入以下命令。
 lspci | grep -i Mellanox 

CX455A 型号的输出

05:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
0c:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
84:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
8b:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]

CX555A 型号的输出

05:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
0c:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
84:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
8b:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
  1. 关闭 DGX-1 并断开所有网络和电源线缆。
  2. 卸下 GPU 托架。
    1. 找到 DGX-1 后部 GPU 托架的锁定杆。 有两组锁定杆。GPU 托架的锁定杆是顶部一组。

    2. 向设备中心向内旋转固定夹。

      固定夹将锁定杆固定到位。向内旋转夹子会释放锁定杆。
    3. 向外摆动锁定杆,然后使用它们将 GPU 托架拉出设备。

      请勿通过蓝色固定夹拉动设备;它们可能会断裂。
  3. 将 GPU 托架放在清洁的工作面上。 警告:请勿尝试通过抓住 U 形螺栓来移动或抬起 GPU 托架。

    要正确移动 GPU 托架,请抓住组件外边缘的托架,并从下方支撑它,注意不要损坏任何组件。

  4. 在要更换的 InfiniBand 卡的支架顶部边缘,旋转固定夹以释放支架。

  5. 牢牢抓住 InfiniBand 卡,然后将其从 PCIe 插槽中笔直向上提起。

  6. 将卸下的卡上的物理标签与更换卡上的标签进行比较,以确保它们是相同的型号。
    图 1. CX455A 型号的标签示例



    图 2. CX555A 型号的标签示例



  7. 将更换 InfiniBand 卡放在空的 PCIe 插槽上方,然后将其插入插槽。
  8. 将固定夹摆动到支架上方,以将支架固定到位。

  9. 小心地将 GPU 托架插回设备,然后将锁定杆摆平靠在托架上,并使用固定夹将它们固定到位。
  10. 重新连接所有连接器,启动系统,然后执行下一节中描述的验证和设置步骤。

设置 InfiniBand 卡

本节介绍验证 InfiniBand 卡是否已正确更换所需的步骤。

  1. 在 DGX-1 打开电源的情况下,验证卡是否已正确安装并被系统识别。
    $ lspci | grep -i mellanox
    输出应显示所有四张 InfiniBand 卡。

    示例

     05:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
     0c:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
     84:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4]
     8b:00.0 Infiniband controller: Mellanox Technologies MT27700 Family [ConnectX-4] 
    如果未报告所有四张卡,则说明卡未正确安装,应重新插拔。如果出现非官方支持的 Mellanox 系列适配器以外的卡,请联系 NVIDIA 企业支持部门。
  2. 验证 InfiniBand 驱动程序是否存在。
    $ lsmod | grep -i ib_
    输出应为 lb_ 和 mlx_ 驱动程序组件的列表。

    示例

     ib_ucm 20480 0
     ib_ipoib 131072 0
     ib_cm 45056 3 rdma_cm,ib_ucm,ib_ipoib
     ib_uverbs 73728 2 ib_ucm,rdma_ucm
     ib_umad 24576 0
     mlx5_ib 192512 0
     mlx4_ib 192512 0
     ib_sa 36864 5 rdma_cm,ib_cm,mlx4_ib,rdma_ucm,ib_ipoib
     ib_mad 57344 4 ib_cm,ib_sa,mlx4_ib,ib_umad
     ib_core 143360 13 rdma_cm,ib_cm,ib_sa,iw_cm,nv_peer_mem,mlx4_ib,mlx5_ib,ib_mad,ib_ucm,ib_umad,ib_uverbs,rdma_ucm,ib_ipoib
     ib_addr 20480 3 rdma_cm,ib_core,rdma_ucm
     ib_netlink 16384 3 rdma_cm,iw_cm,ib_addr
     mlx4_core 344064 2 mlx4_en,mlx4_ib
     mlx5_core 524288 1 mlx5_ib
     mlx_compat 16384 18 rdma_cm,ib_cm,ib_sa,iw_cm,mlx4_en,mlx4_ib,mlx5_ib,ib_mad,ib_ucm,ib_netlink,ib_addr,ib_core,ib_umad,ib_uverbs,mlx4_core,mlx5_core,rdma_ucm,ib_ipoib
  3. 验证 OFED 软件是否已正确安装。
     $ modinfo mlx5_core | grep -i version | head -1 
    示例输出
    Version : 3.4-1.0.0
    注意: DGX OS Server 1.x 版本应具有 OFED 软件 3.2。

    DGX OS Server 2.x 版本应具有 OFED 软件 3.4。

    DGX OS Server 3.x 版本应具有 OFED 软件 4.0。

    DGX OS Server 4.x 版本应具有 OFED 软件 4.4。
  4. 重新启动 InfiniBand 服务,以便识别新卡。
    1. 重新启动 InfiniBand 服务。
      $ sudo service openibd restart
    2. 验证服务是否已启动。
      $ service openibd status
        openibd start/running
    3. 如果服务未启动,请验证
      • 驱动程序是否已根据步骤 3 加载。
      • 相关线缆是否已连接到 InfiniBand 端口。
      • ibstat 的状态(请参阅步骤 7)
      • /var/log/syslog 中是否报告了错误。
      如果这些步骤未指示问题,但服务仍然无法启动,请联系 NVIDIA 企业支持部门并获取该卡的 RMA。
  5. 验证固件版本。
    $ cat /sys/class/infiniband/mlx5*/fw_ver
    示例输出
     12.17.1010
     12.17.1010
     12.17.1010
     12.17.1010
    每个 DGX OS Server 版本支持的最新 InfiniBand 固件版本如下:
    • 1.x 版本:固件版本 12.16.1020
    • 2.x 版本:固件版本 12.17.1010
    • 3.x 版本:固件版本 12.18.1000
    • 4.x 版本:固件版本 12.23.1020
  6. 如果需要更新固件,请按照以下步骤操作:
    1. 启动固件更新。
      $ sudo /opt/mellanox/mlnx-fw-updater/mlnx_fw_updater.pl
      该脚本将检查每张卡的固件版本,并在需要时进行更新。如果更新了任何卡的固件,您将需要重新启动系统以使更改生效。
    2. 如果指示,请重新启动系统。
    3. 重新启动系统后,验证所有 Mellanox InfiniBand 卡是否都使用最新的固件。
      $ cat /sys/class/infiniband/mlx5*/fw_ver
       12.17.1010
       12.17.1010
       12.17.1010
       12.17.1010
  7. 验证 InfiniBand 卡的物理端口状态。
    $ ibstat
    在输出文本中,验证每个具有电缆连接的卡的“物理状态”是否为 LinkUp,以及该卡的端口是否配置了 GUID。以下示例输出显示一张卡处于未连接状态,三张卡处于已连接状态。相关文本以粗体突出显示。
    CA 'mlx5_0'
     CA type: MT4115
     Number of ports: 1
     Firmware version: 12.17.1010
     Hardware version: 0
     Node GUID: 0x248a0703000de288
     System image GUID: 0x248a0703000de288
     Port 1:
           State: Down
           Physical state: Polling
           Rate: 10
           Base lid: 65535
           LMC: 0
           SM lid: 0
           Capability mask: 0x2651e848
           Port GUID: 0x248a0703000de288
           Link layer: InfiniBand
    CA 'mlx5_1'
     CA type: MT4115
     Number of ports: 1
     Firmware version: 12.17.1010
     Hardware version: 0
     Node GUID: 0x248a0703000de26c
     System image GUID: 0x248a0703000de26c
     Port 1:
            State: Initializing
            Physical state: LinkUp
            Rate: 100
            Base lid: 65535
            LMC: 0
            SM lid: 0
            Capability mask: 0x2651e848
            Port GUID: 0x248a0703000de26c
            Link layer: InfiniBand
    CA 'mlx5_2'
     CA type: MT4115
     Number of ports: 1
     Firmware version: 12.17.1010
     Hardware version: 0
     Node GUID: 0x248a0703001effde
     System image GUID: 0x248a0703001effde
     Port 1:
            State: Initializing
            Physical state: LinkUp
            Rate: 100
            Base lid: 65535
            LMC: 0
            SM lid: 0
            Capability mask: 0x2651e848
            Port GUID: 0x248a0703001effde
            Link layer: InfiniBand
    CA 'mlx5_3'
     CA type: MT4115
     Number of ports: 1
     Firmware version: 12.17.1010
     Hardware version: 0
     Node GUID: 0x7cfe900300118f22
     System image GUID: 0x7cfe900300118f22
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f22
             Link layer: InfiniBand 
有关在需要时将端口切换到 InfiniBand 或以太网的说明,请参阅 更改 InfiniBand 端口类型 部分。

SSD 的安全数据删除

本节介绍如何从 NVIDIA DGX-1 系统 SSD 中安全删除数据,以永久销毁存储在那里的所有数据。与仅删除文件或重新格式化 SSD 相比,这执行了更安全的 SSD 数据删除。

注意: 这些说明仅适用于虚拟磁盘(RAID 0 阵列)的 SSD。
您可以使用两种方法安全地删除 SSD 上的数据。
  • 方法 A:使用板载 MegaRAID 控制器
  • 方法 B:使用 StorCLI Erase 命令

方法 A:使用 MegaRAID 控制器

此方法使用板载 MegaRAID 控制器。

  1. 启动 NVIDIA DGX-1 服务器,并在 NVIDIA 徽标启动画面中,按 [F2][Del] 进入 BIOS 设置界面。
  2. 从顶部菜单中选择 Advanced(高级) 选项卡,然后向下滚动并选择 MegaRAID Configuration Utility(MegaRAID 配置实用程序)
  3. 选择 View Server Profile(查看服务器配置文件)
  4. 选择 Virtual Drive Management(虚拟驱动器管理)
  5. 选择 Virtual Drive 0(虚拟驱动器 0)
  6. 选择 Operation(操作) 并按 [Enter],然后选择 Delete Virtual Drive(删除虚拟驱动器)
  7. 选择 “Thorough(彻底)” 擦除模式,然后选择 Go(执行) 并按 [Enter]
  8. 选择 Confirm(确认),然后在 Confirm(确认) 弹出窗口中选择 Enabled(启用)
  9. 返回到 MegaRAID 配置实用程序并执行相同的步骤,在步骤 6 中选择 Virtual Drive 1(虚拟驱动器 1)

方法 B:使用 StorCLI 安全擦除命令

此方法使用 StorCLI Erase 命令。StorCLI 应该包含在您需要的 ISO 镜像中。

有关准备包含当前 DGX OS 服务器 ISO 镜像的可启动安装介质的说明,请参阅
  1. 从 ISO 镜像启动系统,可以远程启动或从可启动 USB 密钥启动。
  2. 在 GRUB 菜单中,选择 ‘Rescue a broken system(修复损坏的系统)’,然后配置区域设置和网络信息。
  3. 当要求选择根文件系统时,选择

    Do not use a root file system(不要使用根文件系统)

    然后

    Execute a shell in the installer environment(在安装程序环境中执行 shell)

  4. 安装 StorCLI 软件包。

    在 root 提示符下,执行以下操作。

    # udpkg -i /cdrom/extras/pool/restricted/s/storcli/storcli_1.20.15_all.deb
  5. 切换到 StorCLI 文件夹。
    # cd /opt/MegaRAID/storcli 
  6. 确认虚拟驱动器 0 和 1 在系统中(分别为启动卷和缓存卷)。
    # ./storcli64 /c0 /vall show  

    示例输出片段。

    Controller = 0
    Status = Success
    Description = None
    
    Virtual Drives :
    ==============
    ----------------------------------------------------------------------
    OC/VD  TYPE   State Access Consist Cache CaC sCC  Size Name
    ----------------------------------------------------------------------
    0/0    RAID0  Opt1  RW     Yes     RWTD   -  ON   446.625 GB
    0/1    RAID0  Opt1  RW     Yes     RWTD   -  ON     6.983 TB
    ...
  7. 擦除卷 /c0 /v0
    1. 擦除卷。
      # ./storcli64 /c0 /v0 start erase thorough
    2. 确认擦除进度。
      # ./storcli64 /c0 /v0 show erase 
  8. 擦除卷 /c0 /v1

    即使之前的擦除步骤仍在进行中,也可以执行此步骤。

    1. 擦除卷。
      # ./storcli64 /c0 /v1 start erase thorough
    2. 确认擦除进度。
       # ./storcli64 /c0 /v1 show erase