U.2 NVMe 缓存驱动器更换#

重要提示

仅可更换为与现有或被更换驱动器相同制造商、型号和密度(容量)的 U.2 NVMe 驱动器。

U.2 NVMe 缓存驱动器更换概述#

这是更换缓存非易失性内存 Express (NVMe) 驱动器过程的高级概述。

  1. 识别故障的 U.2 NVMe 驱动器。

  2. 从 NVIDIA 企业支持订购更换件。

  3. 使用 nvsm 准备驱动器以进行移除 - 寻找白色 LED。

  4. 更换故障的 NVMe 驱动器。

  5. 重建 RAID 卷并重新挂载 /raid 分区。

  6. 通过运行 nvsm show health 确认系统运行状况良好。

  7. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门。

识别故障的 U.2 NVMe#

从前面板识别故障的 NVMe#

如果可以物理访问系统,则可以通过点亮的琥珀色 LED 识别故障驱动器。

_images/nvme-cache-id.png _images/u2-nvme-leds.png

从控制台识别故障的 NVMe#

要从 DGX A100 控制台识别故障的 NVMe 驱动器,请输入以下命令,然后在输出中查找驱动器警报以识别故障驱动器。

$ sudo nvsm show health

该命令返回 PCIe 总线 ID。请参考下图查找与故障驱动器的 PCIe 总线 ID 相对应的插槽 ID。

_images/u2-nvme-mapping.png

NVMe 驱动器:PCIe 到插槽映射#

或者,您可以使用 BMC 仪表板访问传感器屏幕、IPMI 事件日志和系统日志,以识别 U.2 驱动器的问题。

注意

插槽 6 和 7 的 PCIe 总线 ID 取决于固件版本。

识别 NVMe 制造商和型号#

输入以下命令,将 X 替换为与故障驱动器的 Linux 设备名称相对应的数字。

$ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1

输出示例

/systems/localhost/storage/drives/nvme5n1
Properties:
    Capacity = 3840755982336
    BlockSizeBytes = 7501476528
    SerialNumber = 174719FCF9F1
    PartNumber = N/A
    Model = Micron_9200_MTFDHAL3T8TCT
    Revision = 100007H0
    Manufacturer = Micron Technology Inc
    Status_State = Enabled
    Status_Health = OK
    Name = Non-Volatile Memory Express
    MediaType = SSD
    IndicatorLED = N/A
    EncryptionStatus = N/A
    HotSpareType = N/A
    Protocol = NVMe
    NegotiatedSpeedsGbs = 0
    Id = 5

从输出中的“型号”条目确定制造商和型号,然后向 NVIDIA 企业支持部门请求更换 NVMe,并注明此信息。

更换 U.2 NVMe 驱动器#

  1. 确保您已从 NVIDIA 企业支持部门请求并获得了更换驱动器。

  2. 将任何关键数据备份到网络共享卷或其他备份方式。

  3. 使用电源按钮关闭系统。

  4. 移除 NVMe 驱动器。

    1. 按下杠杆释放按钮(在杠杆右侧)以解锁杠杆。

      _images/u2-blank-unlock.png
    2. 拉动杠杆以移除模块。

      _images/u2-nvme-replace.png
  5. 将新的 NVMe 驱动器更换到同一插槽中。

    1. 解锁释放杠杆,然后将驱动器滑入插槽,直到前面板与其他驱动器齐平。

    2. 关闭杠杆并将其锁定到位。

      _images/u2-nvme-lock.png
  6. 开启系统电源。

执行 U.2 NVMe 缓存驱动器安装后任务章节中描述的任务。