M.2 NVMe 启动盘更换#
本主题介绍如何在 NVIDIA DGX™ B200 系统中更换启动盘。
注意
静电敏感设备:务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带并将组件放置在防静电工作表面上。
M.2 NVMe 启动盘更换概述#
这是更换启动盘过程的概要概述。
在 NVIDIA 企业支持的帮助下,确定需要更换哪个 M.2 设备。
从 NVIDIA 企业支持处获取更换的 M.2 磁盘。
确保系统已关机。
如果电缆不够长,请标记所有电缆并将其从主板托架上拔下。
将主板滑出,直至锁定到位。
打开后部隔间。
拉出装有两个 M.2 磁盘的 M.2 转接卡。
更换转接卡上故障的 M.2 设备。
安装装有两个 M.2 磁盘的 M.2 转接卡。
关闭后部主板隔间。
将主板滑回系统。
使用标签作为参考,插入所有电缆。
开启系统电源。
确认 M.2 RAID 1 镜像正在同步。
使用提供的包装将故障单元发送给 NVIDIA 企业支持。
识别故障的 M.2 驱动器#
当 NVIDIA DGX™ B200 系统检测到故障时,会自动将故障的 M.2 驱动器设置为离线。启动盘是镜像的,因此 mdadm
命令行实用程序可以识别要更换的驱动器。
确定哪个驱动器发生故障
sudo nvsm show health
命令输出指示驱动器名称,
nvme0n1
或nvme1n1
。使用
mdadm
命令确认驱动器名称sudo mdadm -D /dev/md0
命令输出指示驱动器名称和驱动器状态。
联系 NVIDIA 企业支持以请求更换的 M.2 驱动器。
将任何关键数据备份到网络共享卷或其他备份选项。
当新驱动器到达时,从镜像卷中移除故障驱动器。
运行以下命令以将驱动器标记为故障并将驱动器从阵列中移除。
将磁盘标记为故障,如果尚未标记为故障
sudo mdadm --manage /dev/md0 --fail /dev/nvme[0/1]n1
从阵列中移除故障磁盘
sudo mdadm --manage /dev/md0 --remove /dev/nvme[0/1]n1
关闭系统电源。
移除 M.2 启动盘载架#
在尝试移除 M.2 启动盘载架之前,请执行以下先决条件
标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。
拔下所有电源线、网络、显示器和 USB 电缆。
有关更多信息,请参阅 主板托架 - 打开和关闭 I/O 挡板。
移除 M.2 驱动器#
在尝试移除其中一个 M.2 NVMe 驱动器之前,请执行以下先决条件
确定故障 M.2 驱动器的位置 ID。
获取更换的 M.2 驱动器并保存包装,以便退回故障驱动器。
更换 M.2 驱动器#
安装 M.2 启动盘载架并关闭系统#
集成新驱动器并完成安装#
将主板恢复到正常位置并开启系统电源。
有关更多信息,请参阅 主板托架 - 打开和关闭 I/O 挡板。
启动操作系统。
运行以下命令以重建启动盘镜像
sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
出现提示时,输入备用(已更换)驱动器的设备名称,
nvme0n1
或nvme1n1
。PROMPT: In order to rebuild this volume, a spare drive is required. Please specify the spare drive to use to rebuild md0. Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1 WARNING: Once the volume rebuild process is started, the process cannot be stopped. Start RAID-1 rebuild on md0? [y/n] y
在提示符下输入 y 以开始 RAID 1 重建后,将显示
Initiating rebuild ...
消息。大约 30 秒后,应显示
Rebuilding RAID-1 ...
消息。/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12 15:27:26.525187 Rebuilding RAID-1 rebuild on volume md0... 31.0% [=============/ ]
如果此消息保持在
Initiating RAID-1 rebuild
超过 30 秒,则无法成功完成重建过程。在这种情况下,请确保更换驱动器的名称正确,然后重试。
使用新驱动器的包装将故障驱动器发送给 NVIDIA 企业支持。
注意
如果您的组织购买了介质保留策略,您或许可以保留故障驱动器以进行销毁。请与 NVIDIA 企业支持部门核实该策略的状态以了解具体信息。