ConnectX-7 I/O 更换#

本主题介绍如何在 NVIDIA DGX™ B200 系统中更换 ConnectX-7 I/O 卡。

ConnectX-7 I/O 卡更换概述#

这是更换 ConnectX-7 I/O 卡的步骤的高级概述。

  1. 识别故障卡。

  2. 从 NVIDIA 企业支持部门获取更换的 ConnectX-7 I/O 卡。

  3. 确保系统已关机。

  4. 如果电缆不够长,请标记所有电缆并从主板托架上拔下。

  5. 滑出主板,直到其锁定到位。

  6. 打开后部隔间。

  7. 拔出故障的 ConnectX-7 正上方的卡,为操作腾出空间。

  8. 拔出 ConnectX-7 I/O 卡。

  9. 从故障卡上移除 IPEX 电缆。

  10. 将 IPEX 电缆安装到新卡上。

  11. 安装新的 ConnectX-7 I/O 卡。

  12. 安装位于 ConnectX-7 卡上方的卡。

  13. 关闭后部主板隔间。

  14. 将主板滑回系统。

  15. 使用标签作为参考,插入所有电缆。

  16. 开启系统电源。

  17. 如有必要,更新固件并测试 ConnectX-7 I/O 卡。

  18. 使用提供的包装将故障单元发送给 NVIDIA 企业支持部门。

准备系统以进行更换#

  1. 确定要更换的 I/O 卡。

    使用 nvsm 命令或网络工具确定哪个卡发生故障。获得此信息后,请联系 NVIDIA 企业支持部门以获得更换件。

  2. 当新卡到达时,关闭系统电源。

  3. 根据 nvsm 输出,确定需要更换的卡,插槽 1 或插槽 2 中的卡。

    _images/dgx-b200-case-rear.png

移除要更换的 ConnectX-7 卡上方的 I/O 卡#

  1. 拉出主板托架并打开 I/O 门。有关打开 I/O 门的信息,请参阅 主板托架 - 打开和关闭 I/O 门

  2. 移除位于 ConnectX-7 卡上方的 I/O 卡。该卡可以是 M.2 启动驱动器组件或网络接口卡。

    • 有关移除 M.2 启动驱动器载体的更多信息,请参阅 M.2 启动驱动器组件更换

      前面链接中的图像显示了如何移除右侧、插槽 2 中 ConnectX-7 卡上方的启动驱动器载体。如果您需要更换插槽 1 中的 ConnectX-7 卡,请按照说明操作,但使用主板托架左侧的翼形螺钉。

    • 有关移除以太网 NIC 的更多信息,请参阅 网络接口卡更换

移除 ConnectX-7 卡#

  1. 将卡从插槽中拉出

    _images/dgx-h100-cx7-remove-card.png
  2. 在将卡拉出太远之前,从卡上移除白色和黑色 IPEX 电缆。

    白色电缆连接到卡的顶部,黑色电缆连接到卡的底部(散热器)

    _images/dgx-b200-cx7-ipex.png
  3. 按照 移除 IPEX 电缆 中的说明移除 IPEX 连接器。

移除 IPEX 电缆#

对白色和黑色电缆重复此过程。

  1. 找到连接到连接器的 IPEX 电缆

    _images/ipex-cable-8.png
  2. 抬起锁定门

    _images/ipex-cable-2.png
  3. 将电缆从连接器上推开

    _images/ipex-cable-3.png

安装 ConnectX-7 卡#

  1. 按照图中的说明连接 IPEX 电缆

    白色电缆连接到卡的顶部,黑色电缆连接到卡的底部(散热器)。这些电缆需要在插入卡之前安装。

    _images/dgx-b200-cx7-ipex.png
  2. 按照 插入 IPEX 电缆 中的说明插入 IPEX 连接器。

  3. 将卡插入插槽

    注意卡右侧的两根 IPEX 电缆。

    _images/dgx-b200-connectx-card-installed.png

插入 IPEX 电缆#

对白色和黑色电缆重复此过程。

  1. 将 IPEX 电缆对准连接器

    _images/ipex-cable-4.png
  2. 将电缆按入连接器

    _images/dgx-b200-ipex-cable-5.png
  3. 确认电缆已插入连接器

    _images/ipex-cable-6.png
  4. 关闭闩锁机构

    _images/ipex-cable-7.png
  5. 确保电缆已锁定到板上的连接器

    _images/ipex-cable-8.png

安装 ConnectX-7 卡上方的 I/O 卡#

  1. 重新安装位于 ConnectX-7 卡上方的 I/O 卡。请参阅以下两个步骤之一

  2. 关闭主板托架 I/O 门并插入主板托架。有关更多信息,请参阅 主板托架 - 打开和关闭 I/O 门

开启系统电源并确认更换#

  1. 开启系统电源并启动。

  2. 更新卡上的固件。

    有关更多信息,请参阅 更新 ConnectX-7 固件

  3. 使用 nvsm 命令确认系统运行正常

    sudo nvsm show health
    
  4. 使用提供的包装将故障单元发送给 NVIDIA 企业支持部门。