M.2 启动盘组件更换#

当您必须更换两个 M.2 操作系统盘时,应订购包含两个 M.2 NVMe 盘的更换组件。

M.2 启动盘转接卡组件更换概述#

这是更换启动盘转接卡组件的步骤概要。

注意

如果您的组织购买了介质保留策略,您或许可以保留故障盘以进行销毁。请咨询 NVIDIA 企业支持以了解该策略的具体状态。

  1. 从 NVIDIA 企业支持处获取更换的 M.2 启动盘组件。

  2. 确保系统已关机

  3. 如果电缆不够长,请标记所有电缆并将其从主板托架上拔下。

  4. 将主板滑出直至锁定到位。

  5. 打开后部隔间。

  6. 拉出带有两个 M.2 盘的 M.2 转接卡。

  7. 安装带有两个 M.2 盘的 M.2 转接卡。

  8. 关闭后部主板隔间。

  9. 将主板滑回系统。

  10. 使用标签作为参考插入所有电缆。

  11. 开启系统电源。

  12. 使用最新的 DGX 操作系统重新安装。

  13. 使用提供的包装将故障单元运送至 NVIDIA 企业支持。

为更换系统做准备#

此故障难以诊断,因为系统无法启动,因为两个启动盘都不可用。

在 NVIDIA 寄来的更换部件到达后,关闭系统,然后打开主板的 I/O 门。请参阅主板托架 - 打开和关闭 I/O 门以访问 M.2 启动盘载架。

移除 M.2 启动盘载架#

在尝试移除 M.2 启动盘载架之前,请执行以下先决条件

  • 标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。

  • 拔下所有电源线、网络线、显示器线和 USB 电缆。

有关更多信息,请参阅主板托架 - 打开和关闭 I/O 门

  1. 在主板的 I/O 部分打开后,松开主板右侧用于 PCI 卡锁定机制的黑色防丢手拧螺丝

    _images/dgx-b200-unlock-m2-carrier.png
  2. 旋转 PCI 载架的锁定机制使其让开

    _images/dgx-h100-lock-remove.png
  3. 松开 M.2 转接卡支撑支架上的防丢螺丝

    _images/dgx-h100-pci-riser-loosen.png
  4. 从插槽中拉出 M.2 转接卡

    _images/card-remove-pci.png
  5. 抬起 M.2 转接卡以将其从系统中移除

    _images/dgx-h100-pci-riser-lift.png

安装 M.2 启动盘载架并关闭系统#

  1. 将 M.2 转接卡放回插槽中

    _images/card-m2-riser.png
  2. 通过将其与插槽对齐,然后将其压在 PCI 插槽转接卡上,将 M.2 载卡安装到 PCI 转接卡中

    _images/card-m2-riser-2.png
  3. 拧紧 M.2 PCI 转接卡支撑支架上的防丢螺丝

    _images/dgx-h100-pci-riser-tighten.png
  4. 关闭闩锁以固定 M.2 载卡并将其固定到位

    _images/pci-carrier-lock.png
  5. 拧紧手拧螺丝以确保锁定机制保持到位

    _images/dgx-b200-rear-captive-lock.png

重新安装系统并完成此过程#

  1. 关闭盖子并插入主板托架。请参阅主板托架 - 打开和关闭 I/O 门以了解更多信息。

  2. 按照《DGX 操作系统用户指南》中的说明重新安装系统。

  3. 通过运行以下命令确认系统工作正常

    sudo nvsm show health
    
  4. 使用新组件的包装将故障单元发送给 NVIDIA 企业支持。