M.2 NVMe 启动盘更换#
注意
静电敏感设备:务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。
M.2 NVMe 启动盘更换概述#
这是更换启动盘过程的高级概述。
在 NVIDIA 企业支持的帮助下,确定需要更换的 M.2 设备
从 NVIDIA 企业支持获取更换的 M.2 磁盘
确保系统已关机
如果线缆不够长,请标记所有线缆并将其从主板托架上拔下
将主板滑出,直至锁定到位
打开后部隔间
拉出装有两个 M.2 磁盘的 M.2 转接卡
更换转接卡上故障的 M.2 设备
安装装有两个 M.2 磁盘的 M.2 转接卡
关闭后部主板隔间
将主板滑回系统
使用标签作为参考,插入所有线缆
开启系统电源
确认 M.2 RAID 1 镜像正在同步
使用提供的包装将故障单元运回 NVIDIA 企业支持
识别故障的 M.2 NVMe#
NVIDIA DGX™ H100/H200 系统在检测到故障时会自动将故障的 M.2 驱动器设置为离线。启动盘是镜像的,因此 mdadm
命令行实用程序可以识别要更换的驱动器。
确定哪个驱动器发生故障
sudo nvsm show health
命令输出指示驱动器名称,
nvme0n1
或nvme1n1
。通过使用
mdadm
命令确认驱动器名称sudo mdadm -D /dev/md0
命令输出指示驱动器名称和驱动器状态。
联系 NVIDIA 企业支持以请求更换 M.2 驱动器。
当新驱动器到达时,您必须从 RAID 卷中移除故障驱动器。运行以下命令以将驱动器标记为故障并从阵列中移除驱动器。
如果磁盘尚未标记为故障,则将其标记为故障
sudo mdadm --manage /dev/md0 --fail /dev/nvmeXn1
从阵列中移除故障磁盘
sudo mdadm --manage /dev/md0 --remove /dev/nvmeXn1
将上述命令中的X替换为故障驱动器的 ID。
将任何关键数据备份到网络共享卷或其他备份方式。
关闭系统电源。
移除 M.2 启动盘载体#
在尝试移除 M.2 启动盘载体之前,请确保您已执行以下先决条件
标记连接到主板托架的所有网络、显示器和 USB 线缆,以便于重新连接时识别。
拔下所有电源线以及所有网络、显示器和 USB 线缆。
有关详细信息,请参阅主板托架 - 打开和关闭 IO 门。
移除 M.2 驱动器#
在尝试移除其中一个 M.2 NVMe 驱动器之前,请确保您已执行以下先决条件
确定了故障 M.2 驱动器的位置 ID。
已获得更换的 M.2 驱动器,并保存了包装,以便在退回故障驱动器时使用。
更换 M.2 驱动器#
安装 M.2 启动盘载体并关闭系统#
集成新驱动器并完成安装#
将主板恢复到正常位置并开启系统电源。
有关详细信息,请参阅主板托架 - 打开和关闭 IO 门。
启动操作系统。
运行以下命令以重建启动盘镜像
sudo nvsm start /systems/localhost/storage/volumes/md0/rebuild/
在
Type of volume rebuild
提示符下,输入raid-1
并按Enter
键PROMPT: In order to rebuild volume, volume type is required. Please specify the volume type to rebuild from options below. raid-0: create raid-0 data volume raid-1: rebuild OS boot and root volumes esp: find and replicate an empty EFI system partition Type of volume rebuild (CTRL-C to cancel): raid-1
在
Name of spare drive
提示符下,输入更换驱动器名称nvme0n1
或nvme1n1
,然后按Enter
键PROMPT: In order to rebuild this volume, a spare drive is required. Please specify the spare drive to use to rebuild RAID-1. Name of spare drive for RAID-1 rebuild (CTRL-C to cancel): nvmeXn1
在警告提示符下,输入
y
并按Enter
键WARNING: Once the volume rebuild process is started, the process cannot be stopped. Start RAID-1 rebuild on md0? [y/n] y
示例输出
Initializing rebuild ...
监控进度。大约
30
秒后,将出现以下消息/systems/localhost/storage/volumes/md0/rebuild started at 2018-10-12 15:27:26.525187 Rebuilding RAID-1 rebuild on volume md0… 31.0% [=============/ ]
如果此消息在
Initiating RAID-1 rebuild
状态下停留超过30
秒,则重建过程存在问题。在这种情况下,请确保更换驱动器的名称正确,然后重试。使用新驱动器的包装将故障驱动器运回 NVIDIA 企业支持
注意
如果您的组织购买了介质保留策略,您或许可以将故障驱动器保留下来进行销毁。有关该策略的具体信息,请咨询 NVIDIA 企业支持。