U.2 NVMe 缓存驱动器更换

U.2 NVMe 缓存驱动器更换概述

这是更换缓存驱动器过程的概要概述。
注意
不支持 NVMe 驱动器的热插拔。在更换故障驱动器之前,请务必关闭系统。
  1. 识别故障的非易失性存储器 Express (NVMe) 驱动器。
  2. 从 NVIDIA 企业支持部门获取更换件。
  3. 关闭系统电源,然后卸下故障的 NVMe 驱动器。
  4. 插入新的 NVMe 驱动器。
  5. 开启 DGX-2 系统电源。
  6. 重建 RAID 卷并重新挂载 /raid 分区。

识别故障的 U.2 NVMe

从前面板识别故障的 NVMe

如果可以物理访问系统,则可以通过闪烁的红色 LED 指示灯识别故障驱动器,如下图所示。

从控制台识别故障的 NVMe

要从 DGX-2 控制台识别故障的 NVMe 驱动器,请输入以下命令,然后从输出中查找缺失的条目。

$ sudo mdadm -D /dev/md1
 
Number   Major   Minor   RaidDevice State
          0     259        8        0      active sync   /dev/nvme9n1
          1     259       13        1      active sync   /dev/nvme5n1
          2     259        7        2      active sync   /dev/nvme6n1
          3     259       10        3      active sync   /dev/nvme3n1
          4     259       12        4      active sync   /dev/nvme2n1
          5     259       11        5      active sync   /dev/nvme7n1
          6     259        9        6      active sync   /dev/nvme8n1
          7     259        6        7      active sync   /dev/nvme4n1

对于具有 8 个 NVMe 驱动器的系统,列表应包括从 nvme2n1nvme9n1 的设备名称;对于具有 16 个 NVMe 驱动器的系统,列表应包括从 nvme0n1nvme15n1 的设备名称。

要将设备名称映射到物理插槽 ID,请输入以下命令,其中 X 对应于缺失的设备名称。

$ ls -l /dev/disk/by-path |grep nvmeX |cut -d'|' -f3

该命令返回 PCIe 总线 ID。参考下图查找与故障驱动器的 PCIe 总线 ID 对应的插槽 ID。

图 1. NVMe 驱动器:PCIe 到插槽映射

识别 NVMe 制造商和型号

输入以下命令,将 X 替换为与故障驱动器的 Linux 设备名称相对应的数字。

$ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1 

示例输出

/systems/localhost/storage/drives/nvme5n1
Properties:
    Capacity = 3840755982336
    BlockSizeBytes = 7501476528
    SerialNumber = 174719FCF9F1
    PartNumber = N/A
    Model = Micron_9200_MTFDHAL3T8TCT
    Revision = 100007H0
    Manufacturer = Micron Technology Inc
    Status_State = Enabled
    Status_Health = OK
    Name = Non-Volatile Memory Express
    MediaType = SSD
    IndicatorLED = N/A
    EncryptionStatus = N/A
    HotSpareType = N/A
    Protocol = NVMe
    NegotiatedSpeedsGbs = 0
    Id = 5

从输出中的“Model”条目确定制造商和型号,然后向 NVIDIA 企业支持部门请求更换 NVMe,并指定此信息。

更换 U.2 NVMe 驱动器

  1. 确保您已获得更换驱动器。
  2. 将任何关键数据备份到网络共享卷或其他备份方式。
  3. 使用电源按钮关闭系统。
  4. 通过挤压手柄上的控制杆并将驱动器拉出,卸下 NVMe 驱动器。
  5. 将新的 NVMe 驱动器更换到同一插槽中,完全插入并确保其卡入到位。
  6. 开启系统电源。
执行 U.2 NVMe 缓存驱动器安装后任务 章节中描述的任务。