U.2 NVMe 缓存驱动器更换#

U.2 NVMe 缓存驱动器更换概述#

这是更换缓存非易失性存储器高速 (NVMe) 驱动器过程的高级概述。

  1. 识别故障 SSD

  2. 从 NVIDIA 企业支持部门获取更换 SSD

  3. 关闭系统电源

  4. 移除先前识别的故障 SSD

  5. 插入新的 SSD

  6. 开启系统电源

  7. 重建 RAID 卷并挂载文件系统

  8. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门

识别故障 U.2 NVMe SSD#

从前面板识别故障 NVMe

如果可以物理访问系统,您可以通过点亮的琥珀色 LED 指示灯识别故障驱动器。

_images/u2-nvme-mapping-h100.png

从控制台识别故障 NVMe

  • 要识别故障数据驱动器,您可以使用 nvsm 命令

    sudo nvsm show health
    

    查看命令输出并查找驱动器警报以识别故障驱动器。

或者,您可以使用 BMC Web 用户界面访问传感器屏幕、IPMI 事件日志系统日志,以识别 U.2 驱动器的问题。

识别 NVMe 制造商和型号#

  • 使用 nvsm 命令显示驱动器信息

    sudo nvsm show /systems/localhost/storage/drives/nvmeXn1
    

    将上述命令中的 X 替换为与故障驱动器的 Linux 设备名称相对应的数字。

    示例输出

     /systems/localhost/storage/drives/nvme5n1
     Properties:
         PhysicalLocation_Info = SlotU.2_Slot3
         BlockSizeBytes = 512
         SerialNumber = 22L0A01WT2N8
         Model = KCM6DRUL3T84
         Revision = 0107
         Manufacturer = KIOXIA Corporation
         Status_State = Enabled
         Status_Health = OK
         Name = nvme5n1
         MediaType = SSD
         EncryptionStatus = Unlocked
         CapacityBytes = 3840755982336
         Id = nvme5n1
     Targets:
     Verbs:
         cd
         set
         show
    

    参考输出中的 ManufacturerModel 字段。向 NVIDIA 企业支持部门请求更换 NVMe,并注明此信息。

更换 U.2 NVMe 驱动器#

  1. 确保您已向 NVIDIA 企业支持部门请求并获得了更换驱动器。

  2. 将任何关键数据备份到网络共享卷或其他备份方式。

  3. 使用电源按钮关闭系统电源。

  4. 移除挡板。有关更多信息,请参阅 移除和安装挡板

  5. 系统断电后,使用下图识别机箱上要更换的驱动器。

    以下步骤中的图示显示了更换 PCI 地址为 ae 的驱动器编号 7

    _images/u2-nvme-mapping-h100.png
  6. 移除 NVMe 驱动器。

    1. 按下驱动器右侧的卡舌以释放拉杆

      _images/dgx-h100-nvme-lever.png
    2. 使用拉杆拉出驱动器

      _images/dgx-h100-nvme-lever-remove.png
    3. 移除驱动器

      _images/dgx-h100-u2-nvme-remove.png

插入 U.2 NVMe 驱动器#

  1. 打开驱动器上的拉杆,并将更换驱动器插入同一插槽

    _images/dgx-h100-nvme-install.png
  2. 关闭拉杆并将其固定到位

    _images/dgx-h100-nvme-lever-close.png
  3. 确认驱动器与系统齐平

    _images/dgx-h100-nvme-flush.png
  4. 驱动器更换完成后,安装挡板。

  5. 开启系统电源。

后续步骤#