主板托盘电池更换#

注意

静电敏感设备:务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

主板托盘电池更换概述#

您可以通过执行以下高级步骤来更换 NVIDIA DGX™ H100/H200 系统的母板托盘电池

  1. 获取更换电池 - 类型 CR2032。

  2. 关闭系统。

  3. 标记所有主板电缆并拔下它们。

  4. 滑出主板托盘。

  5. 打开主板托盘 IO 隔间。

  6. 拔出带有两个 M.2 磁盘的 M.2 扩展卡。

  7. 拔出双端口 Mellanox 网卡(插槽 4)。

  8. 更换主板上的电池。

  9. 安装双端口 Mellanox 网卡(插槽 4)。

  10. 安装带有两个 M.2 磁盘的 M.2 扩展卡。

  11. 关闭主板托盘上的 IO 隔间盖。

  12. 将主板托盘滑入系统。

  13. 使用标签作为参考,插入所有电缆。

  14. 开启系统电源。

  15. 通过运行 nvsm show health 确认系统运行状况良好。

识别故障电池#

当电池故障时,可能会出现以下一些症状

  • Invalid configuration 将出现在屏幕上

  • 启动前,设置程序会出现在屏幕上

  • Press F1 to continue 出现在控制台上

  • 时钟错误或时钟消息出现在屏幕上

  • 系统时钟丢失时间和日期

致电 NVIDIA 企业支持部门,以确认电池是需要更换的正确组件。

注意

CR2032 电池不是由 NVIDIA 提供的,但在便利店很容易找到。购买电池后,请执行以下步骤。

准备系统进行更换#

  1. 关闭系统电源。

  2. 打开主板托盘 IO 门。有关更多信息,请参阅 主板托盘 - 打开和关闭 IO 门

移除 PCI 以太网卡#

  1. 确认主板托盘 IO 盖已打开。

  2. 松开 PCI 卡锁定机制的翼形螺钉,方法是松开与您需要操作的插槽对应的俘获式黑色翼形螺钉

    _images/dgx-h100-mb-tray-left-loosen.png
  3. 旋转 PCI 卡载体的锁定机制,使其让开

    _images/dgx-h100-pci-eth-open.png
  4. 将卡从插槽中拔出

    _images/dgx-h100-pci-eth-pull.png
  5. 移除卡

_images/card-remove.png

移除 ConnectX 网卡#

  1. 将卡从插槽中拔出

    _images/dgx-h100-cx7-remove-card.png
  2. 在将卡拔出太远之前,请从卡上移除白色和黑色 IPEX 电缆。

    白色电缆连接在卡的顶部,黑色电缆连接在卡的底部(散热器)

    _images/dgx-h100-cx7-ipex.png
  3. 按照后续步骤中的说明移除和插入 IPEX 连接器。

移除 IPEX 电缆#

对白色和黑色电缆重复此过程。

  1. 抬起锁定门

    _images/ipex-cable-2.png
  2. 将电缆推离连接器

    _images/ipex-cable-3.png

更换电池#

  1. 使用薄工具轻轻地从电池座中抬起电池

    _images/remove-battery.png
  2. 如图所示旋转电池

    _images/rotate-battery.png
  3. 用新的 CR2032 电池更换电池,将其安装在电池座中。确保正极朝上

    _images/pos-battery.png

插入 IPEX 电缆#

  1. 将 IPEX 电缆对准连接器

    _images/ipex-cable-4.png
  2. 将电缆按入连接器

    _images/ipex-cable-5.png
  3. 确认电缆已插入连接器

    _images/ipex-cable-6.png
  4. 关闭锁定机构

    _images/ipex-cable-7.png
  5. 确保电缆已锁定到板上的连接器

    _images/ipex-cable-8.png

安装 ConnectX 网卡#

  1. 连接 IPEX 电缆后,将新卡安装到插槽中

    _images/connectx-card-new.png
  2. 确认卡已就位并且电缆已连接

    _images/connectx-card-installed.png

安装 PCI 以太网卡#

  1. 将卡定位在系统中

    _images/dgx-h100-pci-eth-down.png
  2. 将卡推入 PCI 插槽

    _images/dgx-h100-pci-eth-push.png
  3. 关闭闩锁以锁定 PCI 卡就位

    _images/dgx-h100-pci-eth-close.png
  4. 拧紧翼形螺钉,以确保锁定闩锁机构保持就位

    _images/dgx-h100-mb-tray-left-tighten.png

开启系统电源并确认更换#

  1. 关闭主板托盘 IO 门并插入主板托盘。有关更多信息,请参阅 主板托盘 - 打开和关闭 IO 门

  2. 将所有电缆和电源线连接到主板托盘。

  3. 为系统供电,然后登录。

  4. 恢复系统上的日期。如果您不使用网络时间协议 (NTP),请执行以下步骤手动设置日期。

    1. 设置日期

      sudo date [MMDDhhmm[[CC]YY][.ss]]
      
    2. 将日期和时间同步到硬件实时时钟

      sudo hwclock -w
      
    3. 重置 BMC

      sudo ipmitool mc reset cold
      
  5. 确认系统上的时间和日期已更新

    sudo nvsm show health