M.2 NVMe 启动盘更换#
M.2 NVMe 启动盘更换概述#
这是更换启动盘过程的概要概述。
在 NVIDIA 企业支持的帮助下,确定需要更换哪个 M.2 硬盘。
从 NVIDIA 企业支持处获取更换件。
关闭系统电源。
标记所有电缆,并从主板托架上拔下它们。
滑出主板,直到其锁定到位。
打开后部隔间,拉出带有两个 M.2 磁盘的 M.2 转接卡。
更换转接卡上故障的 M.2 设备。
安装带有两个 M.2 磁盘的 M.2 转接卡。
关闭后部主板隔间,然后将主板滑回系统。
使用标签作为参考,插入所有电缆。
开启系统电源。
确认 M.2 RAID 1 镜像正在同步。
使用提供的包装将故障单元运回 NVIDIA 企业支持。
识别故障的 M.2 NVMe#
当检测到故障时,DGX A100 系统会自动将故障的 M.2 硬盘置于离线状态。
识别哪个 M.2 硬盘发生故障(nvme0n1 或 nvme1n1)。
$ sudo nvsm show health
您可以通过发出以下命令来确认这一点。
$ sudo mdadm -D /dev/md0
通常,输出将显示两个硬盘(nvme0 和 nvme1)都处于活动同步状态。以下示例输出仅显示
nvme1
处于活动同步状态,表明nvme0n1
是故障硬盘。Number Major Minor RaidDevice State 0 259 2 0 active sync /dev/nvme1n1p2 - 0 0 1 removed
记下故障硬盘的设备名称(nvme0 或 nvme1)和良好硬盘的设备名称(nvme0 或 nvme1)。
在更换硬盘后重建 RAID 1 阵列时,您将需要此信息。
从 NVIDIA 企业支持处获取更换件。
更换 M.2 NVMe 硬盘#
在尝试更换 M.2 NVMe 硬盘之前,请务必执行以下操作
确定故障 M.2 NVMe 硬盘的位置 ID。
已获取更换的 M.2 NVMe 硬盘,并保存了包装,以便在退回故障硬盘时使用。
M.2 NVMe 硬盘
40GB 型号
PCIe 总线:22 -> /dev/nvme1
PCIe 总线:23 -> /dev/nvme2
80GB 型号
PCIe 总线:22 -> /dev/nvme2
PCIe 总线:23 -> /dev/nvme3
注意
静电敏感设备:- 务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如通过佩戴连接到机箱接地的腕带,并将组件放置在无静电工作表面上。
将任何关键数据备份到网络共享卷或其他备份方式。
如果尚未完成,请将硬盘标记为故障,然后通过发出以下命令从阵列中移除故障硬盘(将 X 替换为故障硬盘标识符 - 0 或 1)。
$ sudo mdadm --manage /dev/md0 --fail /dev/nvme<X>n1
$ sudo mdadm --manage /dev/md0 --remove /dev/nvme<X>n1
关闭系统电源。
标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。
拔下所有电源线以及所有网络、显示器和 USB 电缆。
卸下主板托架。
请参阅 访问主板托架 部分中的说明。
通过抬起转接卡组件,从主板托架上卸下 M.2 转接卡。
识别故障的 M.2 模块,并将其从转接卡上卸下。
确定要卸下的硬盘的位置。
使用 1 号十字螺丝刀,拧松固定硬盘的黑色螺丝。
注意
螺丝不是防脱螺丝,可能会掉落。拧松螺丝时要小心,避免掉落和丢失螺丝。
小心地将 M.2 硬盘从转接卡上抬起。
拉动硬盘以断开与转接卡上连接器的连接,然后将新硬盘插入转接卡上的连接器。
将硬盘靠在卡上,并使用 1 号十字螺丝刀拧紧螺丝进行固定。
通过将转接卡插入其插槽,将组装好的模块安装到主板上。
关闭主板托架盖,然后安装主板托架。
请参阅 更换主板托架 部分中的说明。
将所有电缆连接到主板托架,连接所有电源线,然后开启系统电源。
根据 重建启动盘 RAID 1 卷 部分中的说明重建 RAID 1 阵列。
重建启动盘 RAID 1 卷#
更换故障的 M.2 操作系统硬盘后,您必须重建 RAID 1 阵列。
如果您尚未这样做,请启动 DGX A100 系统并登录。
重建启动盘镜像。
在以下步骤中,将 X 替换为与更换的硬盘相对应的数字。如果您在识别故障硬盘时没有记下此信息,请按照 识别故障的 M.2 NVMe 的第一步中的说明进行操作。
启动重建过程。
$ sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
当提示时,输入备用(更换的)硬盘的设备名称 - nvme0n1 或 nvme1n1,具体取决于更换了哪个硬盘。
PROMPT: In order to rebuild this volume, a spare drive is required. Please specify the spare drive to use to rebuild md0. Name of spare drive for md0 rebuild (CTRL-C to cancel): nvmeXn1 WARNING: Once the volume rebuild process is started, the process cannot be stopped. Start RAID-1 rebuild on md0? [y/n] y
在提示输入 y 以启动 RAID 1 重建后,将出现“正在启动重建…”消息。
/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12 15:27:26.525187 Initiating RAID-1 rebuild on volume md0... 0.0% [\ ]
大约 30 秒后,应出现“正在重建 RAID-1 …”消息。
/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12 15:27:26.525187 Rebuilding RAID-1 rebuild on volume md0... 31.0% [=============/ ]
如果此消息保持“正在启动 RAID-1 重建”超过 30 秒,则重建过程存在问题。在这种情况下,请确保更换硬盘的名称正确,然后重试。
RAID 1 重建过程应耗时约 1 小时才能完成。
确保硬盘固件是最新的。有关 M.2 NVMe 硬盘的最新固件的信息,请参阅 DGX A100 固件发布说明。
退回 NVMe 硬盘#
使用新硬盘的包装,并按照包装随附的说明将旧硬盘运回 NVIDIA 企业支持。
注意
如果您的组织购买了介质保留策略,您或许可以保留故障硬盘以进行销毁。请与 NVIDIA 企业支持联系,了解该策略的具体状态。