M.2 启动盘组件更换#

本节适用于您必须更换两个 M.2 操作系统盘的情况。在这种情况下,应订购包含两个 M.2 NVMe 盘的更换组件。

M.2 启动盘转接卡组件更换概述#

这是更换启动盘转接卡组件的步骤概览。

注意

如果您的组织购买了介质保留政策,您或许可以保留故障硬盘以进行销毁。请与 NVIDIA 企业支持部门联系,了解有关该政策的具体状态。

  1. 从 NVIDIA 企业支持部门获取更换的 M.2 启动盘组件

  2. 确保系统已关机

  3. 如果电缆不够长,请标记所有电缆并从主板托架上拔下

  4. 将主板滑出,直到锁定到位

  5. 打开后部隔间

  6. 拉出带有两个 M.2 磁盘的 M.2 转接卡

  7. 安装带有两个 M.2 磁盘的 M.2 转接卡

  8. 关闭后部主板隔间

  9. 将主板滑回系统

  10. 使用标签作为参考,插入所有电缆

  11. 开启系统电源

  12. 使用最新的 DGX 操作系统重新安装

  13. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门

为更换准备系统#

此故障很难诊断,因为系统将无法启动,因为两个启动盘都不可用。

在从 NVIDIA 收到更换部件后,从前面板电源按钮或 BMC 用户界面关闭系统,然后打开主板的 IO 门。请参阅 主板托架 - 打开和关闭 IO 门 以访问 M.2 启动盘托架。

卸下 M.2 启动盘托架#

在尝试卸下 M.2 启动盘托架之前,请确保您已执行以下先决条件

  • 标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时轻松识别。

  • 拔下所有电源线以及所有网络、显示器和 USB 电缆。

有关更多信息,请参阅 主板托架 - 打开和关闭 IO 门

  1. 在主板的 IO 部分打开后,通过松开主板右侧的黑色防丢翼形螺钉来松开 PCI 卡锁定机构,从而解锁 M.2 驱动器托架

    _images/dgx-h100-unlock-m2-carrier.png
  2. 旋转 PCI 托架的锁定机构,使其让开

    _images/dgx-h100-lock-remove.png
  3. 松开 M.2 转接卡支撑支架上的防丢螺钉

    _images/dgx-h100-pci-riser-loosen.png
  4. 从插槽中拔出 M.2 转接卡

    _images/card-remove-pci.png
  5. 提起 M.2 转接卡以将其从系统中卸下

    _images/dgx-h100-pci-riser-lift.png

安装 M.2 启动盘托架并关闭系统#

  1. 将 M.2 转接卡放入系统

    _images/card-m2-riser.png
  2. 通过将 M.2 托架卡与插槽对齐,然后将其压靠在转接卡上,从而将其安装到 PCI 转接卡中

    _images/card-m2-riser-2.png
  3. 拧紧 M.2 转接卡支撑支架上的防丢螺钉

    _images/dgx-h100-pci-riser-tighten.png
  4. 关闭闩锁以固定 M.2 托架并将其固定到位

    _images/pci-carrier-lock.png
  5. 拧紧翼形螺钉以确保锁定机构保持就位

    _images/rear-captive-lock.png

重新安装系统并完成程序#

  1. 关闭盖子并插入主板托架。有关更多信息,请参阅 主板托架 - 打开和关闭 IO 门

  2. 按照 DGX 操作系统用户指南 中的说明重新安装系统。

  3. 通过运行以下命令确认系统工作正常

    sudo nvsm show health
    
  4. 使用新组件的包装将故障组件运回 NVIDIA 企业支持部门