DGX-2 服务手册 :: DGX Systems 文档

M.2 NVMe 启动驱动器更换概述

这是更换启动驱动器过程的概要概述。

在 NVIDIA 企业支持的帮助下，确定需要更换哪个 M.2 驱动器。
从 NVIDIA 企业支持处获取更换件。
关闭系统电源。
标记所有电缆，然后从主板托架上拔下它们。
卸下主板托架，并将其放在稳固的平面上。
卸下主板托架盖。
拉出带有两个 M.2 磁盘的 M.2 转接卡。
更换转接卡上故障的 M.2 设备。
安装带有两个 M.2 磁盘的 M.2 转接卡。
盖上主板托架盖。
将主板托架插入系统。
使用标签作为参考，插入所有电缆。
开启系统电源。
确认 RAID 1 阵列正在重建。

识别故障的 M.2 NVMe

当 DGX-2 系统检测到故障时，会自动将故障的 M.2 驱动器设置为脱机。

在控制台中，运行以下命令以识别故障的驱动器。
```
$ sudo mdadm -D /dev/md0
```
通常，输出将显示两个驱动器（nvme0 和 nvme1）处于活动同步状态。以下示例输出仅显示 nvme1 处于活动同步状态，表明 nvme0 是故障驱动器。
```
Number   Major   Minor  RaidDevice  State
   0     259       2       0      active sync  /dev/nvme1n1p2
   -       0       0       1      removed 
```
记下故障驱动器的设备名称（nvme0 或 nvme1）和良好驱动器的设备名称（nvme0 或 nvme1）。在更换驱动器后重建 RAID 1 阵列时，您将需要此信息。
运行以下命令以确定故障的启动驱动器的位置，将 X 替换为与故障驱动器的设备名称对应的数字。
```
$ ls -l /dev/disk/by-path |grep nvmeX |cut -d':' -f3
```
输出将为“01”或“05”。请务必记下此数字，因为在执行更换时您将需要它。
通过在正常驱动器上运行以下命令来识别 M.2 驱动器的制造商和型号，其中 X 对应于正常驱动器，并检查 Manufacturer = 和 Model = 行。
```
$ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1
```
在订购更换件时提供驱动器的供应商名称，然后从 NVIDIA 企业支持处获取更换件。

更换 M.2 NVMe 驱动器

在尝试更换 M.2 NVMe 驱动器之前，请务必执行以下操作：

确定故障 M.2 NVMe 驱动器的位置 ID。
已获得更换的 M.2 NVMe 驱动器，并已保存包装，以便在退回故障驱动器时使用。

注意： 静电敏感设备： - 请务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地，例如佩戴连接到机箱接地的腕带，并将组件放置在防静电工作表面上。

将任何关键数据备份到网络共享卷或其他备份方式。
关闭系统电源。
标记连接到主板托架的所有电缆，以便于重新连接时识别。
卸下主板托架。
请参阅卸下主板托架部分中的说明。
通过推动夹子以释放转接板，从主板托架上卸下 M.2 模块和转接卡。
识别故障的 M.2 模块，并使用十字 #2 螺丝刀松开螺丝，将其从转接卡上卸下。

使用主板托架盖上的标签来帮助识别 M.2_0 模块和 M.2_1 模块。
插入新的 M.2 模块，并用螺丝将其固定到转接卡上。
通过将转接卡插入其插槽，将组装好的模块安装到主板上。
安装主板托架盖，然后安装主板托架。
请参阅安装主板托架部分中的说明。
将所有电缆连接到主板托架。

根据重建启动驱动器 RAID 1 卷部分中的说明重建 RAID 1 阵列。

重建启动驱动器 RAID 1 卷

更换故障的 M.2 操作系统驱动器后，您必须重建 RAID 1 阵列。

开启 DGX-2 系统。重建过程应在系统启动时自动开始。
登录，然后确认 RAID 1 阵列正在重建。
```
$ sudo mdadm -D /dev/md0 
```
- 如果 RAID 1 阵列仍在重建过程中，则输出将包含以下行。
```
Rebuilt Status  :   XX% complete
```
- 如果 RAID 1 阵列重建过程已完成，则输出将显示两个驱动器都处于“active sync”状态，您可以跳过剩余步骤。
如果重建过程未自动开始，则手动重建阵列。在以下步骤中，将 X 替换为与更换的驱动器对应的数字，将 Y 替换为与未更换的驱动器（幸存的驱动器）对应的数字。如果您在识别故障驱动器时未记下此信息，请按照识别故障的 M.2 驱动器的第一步中的说明进行操作。
1. 启动 NVSM CLI 交互式会话并切换到存储目标。
```
$ sudo nvsm
nvsm-> cd /systems/localhost/storage
```
2. 启动重建过程，并准备好输入更换的驱动器的设备名称。
```
nvsm(/systems/localhost/storage)-> start volumes/md0/rebuild
PROMPT: In order to rebuild this volume, a spare drive
        is required. Please specify the spare drive to
        use to rebuild md0.
Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1
WARNING: Once the volume rebuild process is started, the
         process cannot be stopped.
Start RAID-1 rebuild on md0? [y/n] y
```
  在提示符处输入 y 以启动 RAID 1 重建后，将显示“Initiating rebuild ...”消息。
```
/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
15:27:26.525187
Initiating RAID-1 rebuild on volume md0...
  0.0% [\                              ]  
```
  大约 30 秒后，应显示“Rebuilding RAID-1 ...”消息。
```
/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12
15:27:26.525187
Rebuilding RAID-1 rebuild on volume md0...
  31.0% [=============/                         ]  
```
  如果此消息在“Initiating RAID-1 rebuild”状态下停留超过 30 秒，则重建过程存在问题。在这种情况下，请确保更换驱动器的名称正确，然后重试。
  
  RAID 1 重建过程应大约需要 1 小时才能完成。

退回 NVMe 驱动器/转接板组件

使用新驱动器/转接板组件的包装，并按照包装随附的说明将旧驱动器/转接板组件运回 NVIDIA 企业支持。

注意：如果您的组织购买了介质保留策略，您或许可以保留故障驱动器以进行销毁。请咨询 NVIDIA 企业支持，了解该策略的具体状态。