U.2 NVMe 缓存驱动器更换#
重要提示
仅可更换为与现有或被更换驱动器相同制造商、型号和密度(容量)的 U.2 NVMe 驱动器。
U.2 NVMe 缓存驱动器更换概述#
这是更换缓存非易失性内存 Express (NVMe) 驱动器过程的高级概述。
识别故障的 U.2 NVMe 驱动器。
从 NVIDIA 企业支持订购更换件。
使用 nvsm 准备驱动器以进行移除 - 寻找白色 LED。
更换故障的 NVMe 驱动器。
重建 RAID 卷并重新挂载
/raid
分区。通过运行
nvsm show health
确认系统运行状况良好。使用提供的包装将故障单元运回 NVIDIA 企业支持部门。
识别故障的 U.2 NVMe#
从前面板识别故障的 NVMe#
如果可以物理访问系统,则可以通过点亮的琥珀色 LED 识别故障驱动器。


从控制台识别故障的 NVMe#
要从 DGX A100 控制台识别故障的 NVMe 驱动器,请输入以下命令,然后在输出中查找驱动器警报以识别故障驱动器。
$ sudo nvsm show health
该命令返回 PCIe 总线 ID。请参考下图查找与故障驱动器的 PCIe 总线 ID 相对应的插槽 ID。

NVMe 驱动器:PCIe 到插槽映射#
或者,您可以使用 BMC 仪表板访问传感器屏幕、IPMI 事件日志和系统日志,以识别 U.2 驱动器的问题。
注意
插槽 6 和 7 的 PCIe 总线 ID 取决于固件版本。
识别 NVMe 制造商和型号#
输入以下命令,将 X
替换为与故障驱动器的 Linux 设备名称相对应的数字。
$ sudo nvsm show /systems/localhost/storage/drives/nvmeXn1
输出示例
/systems/localhost/storage/drives/nvme5n1
Properties:
Capacity = 3840755982336
BlockSizeBytes = 7501476528
SerialNumber = 174719FCF9F1
PartNumber = N/A
Model = Micron_9200_MTFDHAL3T8TCT
Revision = 100007H0
Manufacturer = Micron Technology Inc
Status_State = Enabled
Status_Health = OK
Name = Non-Volatile Memory Express
MediaType = SSD
IndicatorLED = N/A
EncryptionStatus = N/A
HotSpareType = N/A
Protocol = NVMe
NegotiatedSpeedsGbs = 0
Id = 5
从输出中的“型号”条目确定制造商和型号,然后向 NVIDIA 企业支持部门请求更换 NVMe,并注明此信息。
更换 U.2 NVMe 驱动器#
确保您已从 NVIDIA 企业支持部门请求并获得了更换驱动器。
将任何关键数据备份到网络共享卷或其他备份方式。
使用电源按钮关闭系统。
移除 NVMe 驱动器。
按下杠杆释放按钮(在杠杆右侧)以解锁杠杆。
拉动杠杆以移除模块。
将新的 NVMe 驱动器更换到同一插槽中。
解锁释放杠杆,然后将驱动器滑入插槽,直到前面板与其他驱动器齐平。
关闭杠杆并将其锁定到位。
开启系统电源。
执行 U.2 NVMe 缓存驱动器安装后任务章节中描述的任务。