M.2 NVMe 启动驱动器更换

M.2 NVMe 启动驱动器更换概述

这是更换启动驱动器过程的概要概述。
  1. 在 NVIDIA 企业支持的帮助下,确定需要更换哪个 M.2 驱动器。
  2. 从 NVIDIA 企业支持处获取更换件。
  3. 关闭系统电源。
  4. 标记所有电缆,然后从主板托架上拔下它们。
  5. 卸下主板托架,并将其放在稳固的平面上。
  6. 卸下主板托架盖。
  7. 拉出带有两个 M.2 磁盘的 M.2 转接卡。
  8. 更换转接卡上故障的 M.2 设备。
  9. 安装带有两个 M.2 磁盘的 M.2 转接卡。
  10. 盖上主板托架盖。
  11. 将主板托架插入系统。
  12. 使用标签作为参考,插入所有电缆。
  13. 开启系统电源。
  14. 确认 RAID 1 阵列正在重建。

识别故障的 M.2 NVMe

当 DGX-2 系统检测到故障时,会自动将故障的 M.2 驱动器设置为脱机。
  1. 在控制台中,运行以下命令以识别故障的驱动器。
    $ sudo mdadm -D /dev/md0
    通常,输出将显示两个驱动器(nvme0 和 nvme1)处于活动同步状态。以下示例输出仅显示 nvme1 处于活动同步状态,表明 nvme0 是故障驱动器。
    Number   Major   Minor  RaidDevice  State
       0     259       2       0      active sync  /dev/nvme1n1p2
       -       0       0       1      removed 
  2. 记下故障驱动器的设备名称(nvme0 或 nvme1)和良好驱动器的设备名称(nvme0 或 nvme1)。在更换驱动器后重建 RAID 1 阵列时,您将需要此信息。
  3. 运行以下命令以确定故障的启动驱动器的位置,将 X 替换为与故障驱动器的设备名称对应的数字。
    $ ls -l /dev/disk/by-path |grep nvmeX |cut -d':' -f3
    输出将为“01”或“05”。请务必记下此数字,因为在执行更换时您将需要它。
  4. 通过在正常驱动器上运行以下命令来识别 M.2 驱动器的制造商和型号,其中 X 对应于正常驱动器,并检查 Manufacturer =Model = 行。
    $ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1
  5. 在订购更换件时提供驱动器的供应商名称,然后从 NVIDIA 企业支持处获取更换件。

更换 M.2 NVMe 驱动器

在尝试更换 M.2 NVMe 驱动器之前,请务必执行以下操作:
  • 确定故障 M.2 NVMe 驱动器的位置 ID。
  • 已获得更换的 M.2 NVMe 驱动器,并已保存包装,以便在退回故障驱动器时使用。

注意静电敏感设备: - 请务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

  1. 将任何关键数据备份到网络共享卷或其他备份方式。
  2. 关闭系统电源。
  3. 标记连接到主板托架的所有电缆,以便于重新连接时识别。
  4. 卸下主板托架。

    请参阅 卸下主板托架 部分中的说明。

  5. 通过推动夹子以释放转接板,从主板托架上卸下 M.2 模块和转接卡。

  6. 识别故障的 M.2 模块,并使用十字 #2 螺丝刀松开螺丝,将其从转接卡上卸下。

    使用主板托架盖上的标签来帮助识别 M.2_0 模块和 M.2_1 模块。

  7. 插入新的 M.2 模块,并用螺丝将其固定到转接卡上。
  8. 通过将转接卡插入其插槽,将组装好的模块安装到主板上。

  9. 安装主板托架盖,然后安装主板托架。

    请参阅 安装主板托架 部分中的说明。

  10. 将所有电缆连接到主板托架。
根据 重建启动驱动器 RAID 1 卷 部分中的说明重建 RAID 1 阵列。

重建启动驱动器 RAID 1 卷

更换故障的 M.2 操作系统驱动器后,您必须重建 RAID 1 阵列。
  1. 开启 DGX-2 系统。重建过程应在系统启动时自动开始。
  2. 登录,然后确认 RAID 1 阵列正在重建。
    $ sudo mdadm -D /dev/md0 
    • 如果 RAID 1 阵列仍在重建过程中,则输出将包含以下行。
      Rebuilt Status  :   XX% complete
    • 如果 RAID 1 阵列重建过程已完成,则输出将显示两个驱动器都处于“active sync”状态,您可以跳过剩余步骤。
  3. 如果重建过程未自动开始,则手动重建阵列。在以下步骤中,将 X 替换为与更换的驱动器对应的数字,将 Y 替换为与未更换的驱动器(幸存的驱动器)对应的数字。如果您在识别故障驱动器时未记下此信息,请按照识别故障的 M.2 驱动器的第一步中的说明进行操作。
    1. 启动 NVSM CLI 交互式会话并切换到存储目标。
      $ sudo nvsm
      nvsm-> cd /systems/localhost/storage
    2. 启动重建过程,并准备好输入更换的驱动器的设备名称。
      nvsm(/systems/localhost/storage)-> start volumes/md0/rebuild
      PROMPT: In order to rebuild this volume, a spare drive
              is required. Please specify the spare drive to
              use to rebuild md0.
      Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1
      WARNING: Once the volume rebuild process is started, the
               process cannot be stopped.
      Start RAID-1 rebuild on md0? [y/n] y
      
      在提示符处输入 y 以启动 RAID 1 重建后,将显示“Initiating rebuild ...”消息。
      /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
      15:27:26.525187
      Initiating RAID-1 rebuild on volume md0...
        0.0% [\                              ]  
      大约 30 秒后,应显示“Rebuilding RAID-1 ...”消息。
      /systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
      15:27:26.525187
      Rebuilding RAID-1 rebuild on volume md0...
        31.0% [=============/                         ]  

      如果此消息在“Initiating RAID-1 rebuild”状态下停留超过 30 秒,则重建过程存在问题。在这种情况下,请确保更换驱动器的名称正确,然后重试。

      RAID 1 重建过程应大约需要 1 小时才能完成。

退回 NVMe 驱动器/转接板组件

使用新驱动器/转接板组件的包装,并按照包装随附的说明将旧驱动器/转接板组件运回 NVIDIA 企业支持。
注意:如果您的组织购买了介质保留策略,您或许可以保留故障驱动器以进行销毁。请咨询 NVIDIA 企业支持,了解该策略的具体状态。