M.2 NVMe 启动盘更换#

M.2 NVMe 启动盘更换概述#

这是更换启动盘过程的概要概述。

  1. 在 NVIDIA 企业支持的帮助下,确定需要更换哪个 M.2 硬盘。

  2. 从 NVIDIA 企业支持处获取更换件。

  3. 关闭系统电源。

  4. 标记所有电缆,并从主板托架上拔下它们。

  5. 滑出主板,直到其锁定到位。

  6. 打开后部隔间,拉出带有两个 M.2 磁盘的 M.2 转接卡。

  7. 更换转接卡上故障的 M.2 设备。

  8. 安装带有两个 M.2 磁盘的 M.2 转接卡。

  9. 关闭后部主板隔间,然后将主板滑回系统。

  10. 使用标签作为参考,插入所有电缆。

  11. 开启系统电源。

  12. 确认 M.2 RAID 1 镜像正在同步。

  13. 使用提供的包装将故障单元运回 NVIDIA 企业支持。

识别故障的 M.2 NVMe#

当检测到故障时,DGX A100 系统会自动将故障的 M.2 硬盘置于离线状态。

  1. 识别哪个 M.2 硬盘发生故障(nvme0n1 或 nvme1n1)。

    $ sudo nvsm show health
    
  2. 您可以通过发出以下命令来确认这一点。

    $ sudo mdadm -D /dev/md0
    

    通常,输出将显示两个硬盘(nvme0 和 nvme1)都处于活动同步状态。以下示例输出仅显示 nvme1 处于活动同步状态,表明 nvme0n1 是故障硬盘。

    Number   Major   Minor  RaidDevice  State
       0     259       2       0      active sync  /dev/nvme1n1p2
       -       0       0       1      removed
    
  3. 记下故障硬盘的设备名称(nvme0 或 nvme1)和良好硬盘的设备名称(nvme0 或 nvme1)。

    在更换硬盘后重建 RAID 1 阵列时,您将需要此信息。

  4. 从 NVIDIA 企业支持处获取更换件。

更换 M.2 NVMe 硬盘#

在尝试更换 M.2 NVMe 硬盘之前,请务必执行以下操作

  • 确定故障 M.2 NVMe 硬盘的位置 ID。

  • 已获取更换的 M.2 NVMe 硬盘,并保存了包装,以便在退回故障硬盘时使用。

    M.2 NVMe 硬盘

    • 40GB 型号

      • PCIe 总线:22 -> /dev/nvme1

      • PCIe 总线:23 -> /dev/nvme2

    • 80GB 型号

      • PCIe 总线:22 -> /dev/nvme2

      • PCIe 总线:23 -> /dev/nvme3

注意

静电敏感设备:- 务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如通过佩戴连接到机箱接地的腕带,并将组件放置在无静电工作表面上。

  1. 将任何关键数据备份到网络共享卷或其他备份方式。

  2. 如果尚未完成,请将硬盘标记为故障,然后通过发出以下命令从阵列中移除故障硬盘(将 X 替换为故障硬盘标识符 - 0 或 1)。

    $ sudo mdadm --manage /dev/md0 --fail /dev/nvme<X>n1
    
    $ sudo mdadm --manage /dev/md0 --remove /dev/nvme<X>n1
    
  3. 关闭系统电源。

  4. 标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。

  5. 拔下所有电源线以及所有网络、显示器和 USB 电缆。

  6. 卸下主板托架。

    请参阅 访问主板托架 部分中的说明。

  7. 通过抬起转接卡组件,从主板托架上卸下 M.2 转接卡。

    _images/m2-riser-remove.png
  8. 识别故障的 M.2 模块,并将其从转接卡上卸下。

    1. 确定要卸下的硬盘的位置。

      _images/m2-riser-nvme-loc.png
    2. 使用 1 号十字螺丝刀,拧松固定硬盘的黑色螺丝。

      注意

      螺丝不是防脱螺丝,可能会掉落。拧松螺丝时要小心,避免掉落和丢失螺丝。

      _images/m2-riser-nvme-unscrew.png
    3. 小心地将 M.2 硬盘从转接卡上抬起。

      _images/m2-riser-nvme-lift.png
    4. 拉动硬盘以断开与转接卡上连接器的连接,然后将新硬盘插入转接卡上的连接器。

      _images/m2-riser-nvme-replace.png
    5. 将硬盘靠在卡上,并使用 1 号十字螺丝刀拧紧螺丝进行固定。

      _images/m2-riser-nvme-reseat-screw.png
  9. 通过将转接卡插入其插槽,将组装好的模块安装到主板上。

    _images/m2-riser-replace.png
  10. 关闭主板托架盖,然后安装主板托架。

    请参阅 更换主板托架 部分中的说明。

  11. 将所有电缆连接到主板托架,连接所有电源线,然后开启系统电源。

根据 重建启动盘 RAID 1 卷 部分中的说明重建 RAID 1 阵列。

重建启动盘 RAID 1 卷#

更换故障的 M.2 操作系统硬盘后,您必须重建 RAID 1 阵列。

  1. 如果您尚未这样做,请启动 DGX A100 系统并登录。

  2. 重建启动盘镜像。

    在以下步骤中,将 X 替换为与更换的硬盘相对应的数字。如果您在识别故障硬盘时没有记下此信息,请按照 识别故障的 M.2 NVMe 的第一步中的说明进行操作。

    1. 启动重建过程。

      $ sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
      
    2. 当提示时,输入备用(更换的)硬盘的设备名称 - nvme0n1 或 nvme1n1,具体取决于更换了哪个硬盘。

      PROMPT: In order to rebuild this volume, a spare drive
              is required. Please specify the spare drive to
              use to rebuild md0.
      Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1
      WARNING: Once the volume rebuild process is started, the
               process cannot be stopped.
      Start RAID-1 rebuild on md0? [y/n] y
      

      在提示输入 y 以启动 RAID 1 重建后,将出现“正在启动重建…”消息。

      /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
      15:27:26.525187
      Initiating RAID-1 rebuild on volume md0...
        0.0% [\                              ]
      

      大约 30 秒后,应出现“正在重建 RAID-1 …”消息。

      /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
      15:27:26.525187
      Rebuilding RAID-1 rebuild on volume md0...
        31.0% [=============/                         ]
      

      如果此消息保持“正在启动 RAID-1 重建”超过 30 秒,则重建过程存在问题。在这种情况下,请确保更换硬盘的名称正确,然后重试。

      RAID 1 重建过程应耗时约 1 小时才能完成。

确保硬盘固件是最新的。有关 M.2 NVMe 硬盘的最新固件的信息,请参阅 DGX A100 固件发布说明

退回 NVMe 硬盘#

使用新硬盘的包装,并按照包装随附的说明将旧硬盘运回 NVIDIA 企业支持。

注意

如果您的组织购买了介质保留策略,您或许可以保留故障硬盘以进行销毁。请与 NVIDIA 企业支持联系,了解该策略的具体状态。