U.2 NVMe 缓存驱动器更换
U.2 NVMe 缓存驱动器更换概述
这是更换缓存驱动器过程的概要概述。
注意
不支持 NVMe 驱动器的热插拔。在更换故障驱动器之前,请务必关闭系统。
- 识别故障的非易失性存储器 Express (NVMe) 驱动器。
- 从 NVIDIA 企业支持部门获取更换件。
- 关闭系统电源,然后卸下故障的 NVMe 驱动器。
- 插入新的 NVMe 驱动器。
- 开启 DGX-2 系统电源。
- 重建 RAID 卷并重新挂载 /raid 分区。
识别故障的 U.2 NVMe
从控制台识别故障的 NVMe
要从 DGX-2 控制台识别故障的 NVMe 驱动器,请输入以下命令,然后从输出中查找缺失的条目。
$ sudo mdadm -D /dev/md1
Number Major Minor RaidDevice State 0 259 8 0 active sync /dev/nvme9n1 1 259 13 1 active sync /dev/nvme5n1 2 259 7 2 active sync /dev/nvme6n1 3 259 10 3 active sync /dev/nvme3n1 4 259 12 4 active sync /dev/nvme2n1 5 259 11 5 active sync /dev/nvme7n1 6 259 9 6 active sync /dev/nvme8n1 7 259 6 7 active sync /dev/nvme4n1
对于具有 8 个 NVMe 驱动器的系统,列表应包括从 nvme2n1 到 nvme9n1 的设备名称;对于具有 16 个 NVMe 驱动器的系统,列表应包括从 nvme0n1 到 nvme15n1 的设备名称。
要将设备名称映射到物理插槽 ID,请输入以下命令,其中 X 对应于缺失的设备名称。
$ ls -l /dev/disk/by-path |grep nvmeX |cut -d'|' -f3
该命令返回 PCIe 总线 ID。参考下图查找与故障驱动器的 PCIe 总线 ID 对应的插槽 ID。
识别 NVMe 制造商和型号
输入以下命令,将 X 替换为与故障驱动器的 Linux 设备名称相对应的数字。
$ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1
示例输出
/systems/localhost/storage/drives/nvme5n1 Properties: Capacity = 3840755982336 BlockSizeBytes = 7501476528 SerialNumber = 174719FCF9F1 PartNumber = N/A Model = Micron_9200_MTFDHAL3T8TCT Revision = 100007H0 Manufacturer = Micron Technology Inc Status_State = Enabled Status_Health = OK Name = Non-Volatile Memory Express MediaType = SSD IndicatorLED = N/A EncryptionStatus = N/A HotSpareType = N/A Protocol = NVMe NegotiatedSpeedsGbs = 0 Id = 5
从输出中的“Model”条目确定制造商和型号,然后向 NVIDIA 企业支持部门请求更换 NVMe,并指定此信息。
更换 U.2 NVMe 驱动器
- 确保您已获得更换驱动器。
- 将任何关键数据备份到网络共享卷或其他备份方式。
- 使用电源按钮关闭系统。
- 通过挤压手柄上的控制杆并将驱动器拉出,卸下 NVMe 驱动器。
- 将新的 NVMe 驱动器更换到同一插槽中,完全插入并确保其卡入到位。
- 开启系统电源。
执行 U.2 NVMe 缓存驱动器安装后任务 章节中描述的任务。