M.2 NVMe 启动盘更换#

本主题介绍如何在 NVIDIA DGX™ B200 系统中更换启动盘。

注意

静电敏感设备:务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带并将组件放置在防静电工作表面上。

M.2 NVMe 启动盘更换概述#

这是更换启动盘过程的概要概述。

  1. 在 NVIDIA 企业支持的帮助下,确定需要更换哪个 M.2 设备。

  2. 从 NVIDIA 企业支持处获取更换的 M.2 磁盘。

  3. 确保系统已关机。

  4. 如果电缆不够长,请标记所有电缆并将其从主板托架上拔下。

  5. 将主板滑出,直至锁定到位。

  6. 打开后部隔间。

  7. 拉出装有两个 M.2 磁盘的 M.2 转接卡。

  8. 更换转接卡上故障的 M.2 设备。

  9. 安装装有两个 M.2 磁盘的 M.2 转接卡。

  10. 关闭后部主板隔间。

  11. 将主板滑回系统。

  12. 使用标签作为参考,插入所有电缆。

  13. 开启系统电源。

  14. 确认 M.2 RAID 1 镜像正在同步。

  15. 使用提供的包装将故障单元发送给 NVIDIA 企业支持。

识别故障的 M.2 驱动器#

当 NVIDIA DGX™ B200 系统检测到故障时,会自动将故障的 M.2 驱动器设置为离线。启动盘是镜像的,因此 mdadm 命令行实用程序可以识别要更换的驱动器。

  1. 确定哪个驱动器发生故障

    sudo nvsm show health
    

    命令输出指示驱动器名称,nvme0n1nvme1n1

  2. 使用 mdadm 命令确认驱动器名称

    sudo mdadm -D /dev/md0
    

    命令输出指示驱动器名称和驱动器状态。

  3. 联系 NVIDIA 企业支持以请求更换的 M.2 驱动器。

  4. 将任何关键数据备份到网络共享卷或其他备份选项。

  5. 当新驱动器到达时,从镜像卷中移除故障驱动器。

    运行以下命令以将驱动器标记为故障并将驱动器从阵列中移除。

    1. 将磁盘标记为故障,如果尚未标记为故障

      sudo mdadm --manage /dev/md0 --fail /dev/nvme[0/1]n1
      
    2. 从阵列中移除故障磁盘

      sudo mdadm --manage /dev/md0 --remove /dev/nvme[0/1]n1
      
  6. 关闭系统电源。

移除 M.2 启动盘载架#

在尝试移除 M.2 启动盘载架之前,请执行以下先决条件

  • 标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。

  • 拔下所有电源线、网络、显示器和 USB 电缆。

有关更多信息,请参阅 主板托架 - 打开和关闭 I/O 挡板

  1. 在主板的 I/O 部分打开后,松开主板右侧用于 PCI 卡锁定机制的黑色 captive 翼形螺钉

    _images/dgx-b200-unlock-m2-carrier.png
  2. 旋转 PCI 载架的锁定机制,使其让开

    _images/dgx-h100-lock-remove.png
  3. 松开 M.2 转接卡支撑支架上的 captive 螺钉

    _images/dgx-h100-pci-riser-loosen.png
  4. 从插槽中拉出 M.2 转接卡

    _images/card-remove-pci.png
  5. 提起 M.2 转接卡以将其从系统中移除

    _images/dgx-h100-pci-riser-lift.png

移除 M.2 驱动器#

在尝试移除其中一个 M.2 NVMe 驱动器之前,请执行以下先决条件

  • 确定故障 M.2 驱动器的位置 ID。

  • 获取更换的 M.2 驱动器并保存包装,以便退回故障驱动器。

  1. 识别需要更换的 M.2 NVMe

    _images/nvme-card.png
  2. 松开已识别的 M.2 驱动器的螺钉

    _images/nvme-card-2.png
  3. 将 M.2 驱动器的左端向上拉起约 30°

    _images/dgx-h100-nvme-lift-30.png
  4. 从连接器上释放 M.2 驱动器

    _images/dgx-h100-nvme-remove.png

更换 M.2 驱动器#

  1. 要插入 M.2 驱动器,请将其倾斜一定角度并插入连接器

    _images/nvme-drive-1.png
  2. 放下 M.2 驱动器并将其与螺钉柱对齐

    _images/nvme-drive-2.png
  3. 安装并拧紧螺钉以将驱动器固定到转接卡上

    _images/nvme-drive-3.png

安装 M.2 启动盘载架并关闭系统#

  1. 将 M.2 转接卡放入插槽

    _images/card-m2-riser.png
  2. 将 M.2 载卡安装到 PCI 转接卡中,方法是将其与插槽对齐,然后将其压向 PCI 插槽转接卡

    _images/card-m2-riser-2.png
  3. 拧紧 M.2 PCI 转接卡支撑支架上的 captive 螺钉

    _images/dgx-h100-pci-riser-tighten.png
  4. 关闭闩锁以固定 M.2 载卡并将其固定到位

    _images/pci-carrier-lock.png
  5. 拧紧翼形螺钉以确保锁定机制保持在位

    _images/dgx-b200-rear-captive-lock.png

集成新驱动器并完成安装#

  1. 将主板恢复到正常位置并开启系统电源。

    有关更多信息,请参阅 主板托架 - 打开和关闭 I/O 挡板

  2. 启动操作系统。

  3. 运行以下命令以重建启动盘镜像

    sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
    
  4. 出现提示时,输入备用(已更换)驱动器的设备名称,nvme0n1nvme1n1

    PROMPT: In order to rebuild this volume, a spare drive is required. Please specify
            the spare drive to use to rebuild md0.
    Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1
    WARNING: Once the volume rebuild process is started, the process cannot be stopped.
    Start RAID-1 rebuild on md0? [y/n] y
    
    1. 在提示符下输入 y 以开始 RAID 1 重建后,将显示 Initiating rebuild ... 消息。

    2. 大约 30 秒后,应显示 Rebuilding RAID-1 ... 消息。

      /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12 15:27:26.525187
      Rebuilding RAID-1 rebuild on volume md0...
      31.0% [=============/ ]
      

      如果此消息保持在 Initiating RAID-1 rebuild 超过 30 秒,则无法成功完成重建过程。在这种情况下,请确保更换驱动器的名称正确,然后重试。

  5. 使用新驱动器的包装将故障驱动器发送给 NVIDIA 企业支持。

注意

如果您的组织购买了介质保留策略,您或许可以保留故障驱动器以进行销毁。请与 NVIDIA 企业支持部门核实该策略的状态以了解具体信息。