M.2 NVMe 启动盘更换#

注意

静电敏感设备:务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

M.2 NVMe 启动盘更换概述#

这是更换启动盘过程的高级概述。

  1. 在 NVIDIA 企业支持的帮助下,确定需要更换的 M.2 设备

  2. 从 NVIDIA 企业支持获取更换的 M.2 磁盘

  3. 确保系统已关机

  4. 如果线缆不够长,请标记所有线缆并将其从主板托架上拔下

  5. 将主板滑出,直至锁定到位

  6. 打开后部隔间

  7. 拉出装有两个 M.2 磁盘的 M.2 转接卡

  8. 更换转接卡上故障的 M.2 设备

  9. 安装装有两个 M.2 磁盘的 M.2 转接卡

  10. 关闭后部主板隔间

  11. 将主板滑回系统

  12. 使用标签作为参考,插入所有线缆

  13. 开启系统电源

  14. 确认 M.2 RAID 1 镜像正在同步

  15. 使用提供的包装将故障单元运回 NVIDIA 企业支持

识别故障的 M.2 NVMe#

NVIDIA DGX™ H100/H200 系统在检测到故障时会自动将故障的 M.2 驱动器设置为离线。启动盘是镜像的,因此 mdadm 命令行实用程序可以识别要更换的驱动器。

  1. 确定哪个驱动器发生故障

    sudo nvsm show health
    

    命令输出指示驱动器名称,nvme0n1nvme1n1

  2. 通过使用 mdadm 命令确认驱动器名称

    sudo mdadm -D /dev/md0
    

    命令输出指示驱动器名称和驱动器状态。

  3. 联系 NVIDIA 企业支持以请求更换 M.2 驱动器。

  4. 当新驱动器到达时,您必须从 RAID 卷中移除故障驱动器。运行以下命令以将驱动器标记为故障并从阵列中移除驱动器。

    1. 如果磁盘尚未标记为故障,则将其标记为故障

      sudo mdadm --manage /dev/md0 --fail /dev/nvmeXn1
      
    2. 从阵列中移除故障磁盘

      sudo mdadm --manage /dev/md0 --remove /dev/nvmeXn1
      

    将上述命令中的X替换为故障驱动器的 ID。

  5. 将任何关键数据备份到网络共享卷或其他备份方式。

  6. 关闭系统电源。

移除 M.2 启动盘载体#

在尝试移除 M.2 启动盘载体之前,请确保您已执行以下先决条件

  • 标记连接到主板托架的所有网络、显示器和 USB 线缆,以便于重新连接时识别。

  • 拔下所有电源线以及所有网络、显示器和 USB 线缆。

有关详细信息,请参阅主板托架 - 打开和关闭 IO 门

  1. 在主板的 IO 部分打开后,通过松开主板右侧的黑色 captive 翼形螺钉来松开 PCI 卡锁定机构,从而解锁 M.2 驱动器载体

    _images/dgx-h100-unlock-m2-carrier.png
  2. 旋转 PCI 载体的锁定机构,使其让开

    _images/dgx-h100-lock-remove.png
  3. 松开 M.2 转接卡支撑支架上的 captive 螺钉

    _images/dgx-h100-pci-riser-loosen.png
  4. 从插槽中拉出 M.2 转接卡

    _images/card-remove-pci.png
  5. 抬起 M.2 转接卡以将其从系统中移除

    _images/dgx-h100-pci-riser-lift.png

移除 M.2 驱动器#

在尝试移除其中一个 M.2 NVMe 驱动器之前,请确保您已执行以下先决条件

  • 确定了故障 M.2 驱动器的位置 ID。

  • 已获得更换的 M.2 驱动器,并保存了包装,以便在退回故障驱动器时使用。

  1. 识别需要更换的 M.2 NVMe

    _images/nvme-card.png
  2. 松开已识别的 M.2 驱动器的螺钉

    _images/nvme-card-2.png
  3. 将 M.2 驱动器的左端向上拉起约 30°

    _images/dgx-h100-nvme-lift-30.png
  4. 要拉出 M.2,请将其稍微抬起(最多 30°),然后将驱动器从插槽中拔出,如下图所示

    _images/dgx-h100-nvme-remove.png

更换 M.2 驱动器#

  1. 要插入 M.2 驱动器,请将其倾斜一定角度并插入连接器

    _images/nvme-drive-1.png
  2. 放下 M.2 驱动器并将其与螺柱对齐

    _images/nvme-drive-2.png
  3. 安装并拧紧螺钉,以将驱动器固定到转接卡上

    _images/nvme-drive-3.png

安装 M.2 启动盘载体并关闭系统#

  1. 将 M.2 转接卡放入系统

    _images/card-m2-riser.png
  2. 将 M.2 载卡安装到 PCI 转接卡中,方法是将其与插槽对齐,然后将其压在转接卡上

    _images/card-m2-riser-2.png
  3. 拧紧 M.2 转接卡支撑支架上的 captive 螺钉

    _images/dgx-h100-pci-riser-tighten.png
  4. 关闭闩锁以固定 M.2 载体并将其固定到位

    _images/pci-carrier-lock.png
  5. 拧紧翼形螺钉以确保锁定机构保持在位

    _images/rear-captive-lock.png

集成新驱动器并完成安装#

  1. 将主板恢复到正常位置并开启系统电源。

    有关详细信息,请参阅主板托架 - 打开和关闭 IO 门

  2. 启动操作系统。

  3. 运行以下命令以重建启动盘镜像

    sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
    
  4. Type of volume rebuild 提示符下,输入 raid-1 并按 Enter

    PROMPT: In order to rebuild volume, volume type is required. Please
         specify the volume type to rebuild from options below.
         raid-0: create raid-0 data volume
         raid-1: rebuild OS boot and root volumes
         esp:    find and replicate an empty EFI system partition
    
    Type of volume rebuild (CTRL-C to cancel): raid-1
    
  5. Name of spare drive 提示符下,输入更换驱动器名称 nvme0n1nvme1n1,然后按 Enter

    PROMPT: In order to rebuild this volume, a spare drive
         is required. Please specify the spare drive to
         use to rebuild RAID-1.
    
    Name of spare drive for RAID-1 rebuild (CTRL-C to cancel): nvmeXn1
    
  6. 在警告提示符下,输入 y 并按 Enter

    WARNING: Once the volume rebuild process is started, the process cannot be stopped.
    Start RAID-1 rebuild on md0? [y/n] y
    

    示例输出

    Initializing rebuild ...
    
  7. 监控进度。大约 30 秒后,将出现以下消息

    /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
              15:27:26.525187
    Rebuilding RAID-1 rebuild on volume md0…
    31.0% [=============/ ]
    

    如果此消息在 Initiating RAID-1 rebuild 状态下停留超过 30 秒,则重建过程存在问题。在这种情况下,请确保更换驱动器的名称正确,然后重试。

  8. 使用新驱动器的包装将故障驱动器运回 NVIDIA 企业支持

注意

如果您的组织购买了介质保留策略,您或许可以将故障驱动器保留下来进行销毁。有关该策略的具体信息,请咨询 NVIDIA 企业支持。