ConnectX-7 I/O 更换#

ConnectX-7 I/O 卡更换概述#

  1. 识别故障卡

  2. 从 NVIDIA 企业支持部门获取更换的 ConnectX-7 IO 卡

  3. 确保系统已关机

  4. 如果电缆不够长,请标记所有电缆并从主板托架上拔下

  5. 将主板滑出,直到锁定到位

  6. 打开后部隔间

  7. 拉出故障的 ConnectX-7 正上方的卡,为操作腾出空间

  8. 拉出 ConnectX-7 IO 卡

  9. 从旧卡上拔下 IPEX 电缆

  10. 将 IPEX 电缆安装到新卡上

  11. 安装新的 ConnectX-7 IO 卡

  12. 安装位于 ConnectX-7 卡上方的卡

  13. 关闭后部主板隔间

  14. 将主板滑回系统

  15. 使用标签作为参考,插入所有电缆

  16. 开启系统电源

  17. 如有必要,更新固件并测试 ConnectX-7 IO 卡

  18. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门

准备系统进行更换#

  1. 首先,确定要更换哪个 IO 卡。使用 nvsm 命令或网络工具来确定哪个卡发生故障。获得此信息后,请联系 NVIDIA 企业支持部门以获取更换件。

  2. 当卡到达后,关闭系统电源。

  3. 根据 nvsm 的输出,确定需要更换哪个卡,插槽 1 或插槽 2 中的卡

    _images/case-rear.png

拆卸要更换的 ConnectX 卡上方的 I/O 卡#

  1. 拉出主板托架并打开 IO 门。有关打开 IO 门的信息,请参阅 主板托架 - 打开和关闭 IO 门

  2. 拆卸位于 ConnectX 卡上方的 I/O 卡。该卡可以是 M.2 启动驱动器组件或网络接口卡。

    • 有关拆卸 M.2 启动驱动器托架的信息,请参阅 M.2 启动驱动器组件更换

      前述链接中的图像显示了如何拆卸右侧插槽 2 中 ConnectX 卡上方的启动驱动器托架。如果您需要更换插槽 2 中的 ConnectX 卡,请按照说明操作,但使用主板托架左侧的翼形螺钉。

    • 有关拆卸以太网 NIC 的信息,请参阅 网络接口卡更换

拆卸 ConnectX 卡#

  1. 将卡从插槽中拉出

    _images/dgx-h100-cx7-remove-card.png
  2. 在将卡拉出太远之前,从卡上拔下白色和黑色 IPEX 电缆。

    白色电缆连接到卡的顶部,黑色电缆连接到卡的底部(散热器)

    _images/dgx-h100-cx7-ipex.png
  3. 按照后续步骤中的说明拆卸和插入 IPEX 连接器。

拆卸 IPEX 电缆#

对白色和黑色电缆重复此过程。

  1. 抬起锁定门

    _images/ipex-cable-2.png
  2. 将电缆从连接器上推开

    _images/ipex-cable-3.png

插入 IPEX 电缆#

  1. 将 IPEX 电缆对准连接器

    _images/ipex-cable-4.png
  2. 将电缆按入连接器

    _images/ipex-cable-5.png
  3. 确认电缆已插入连接器

    _images/ipex-cable-6.png
  4. 关闭锁闭机构

    _images/ipex-cable-7.png
  5. 确保电缆已锁定到板上的连接器

    _images/ipex-cable-8.png

安装 ConnectX 卡#

  1. 连接 IPEX 电缆后,将新卡安装到插槽中

    _images/connectx-card-new.png
  2. 确认卡已就位且电缆已连接

    _images/connectx-card-installed.png

安装 ConnectX 卡上方的 I/O 卡#

  1. 重新安装位于 ConnectX 卡上方的 I/O 卡。请参阅以下两个步骤之一

  2. 关闭主板托架 IO 门并插入主板托架。有关更多信息,请参阅 主板托架 - 打开和关闭 IO 门

开启系统电源并确认更换#

  1. 开启电源并启动系统。

  2. 更新卡上的固件。请参阅《NVIDIA ConnectX-7 用户指南》。

  3. 使用 nvsm 命令确认系统工作正常

    sudo nvsm show health
    
  4. 使用新组件的包装将故障组件运回 NVIDIA 企业支持部门。