电源更换

本章介绍如何更换 DGX-2 系统电源 (PSU) 之一。

电源更换概述

这是更换电源所需步骤的高级概述。
  1. 通过 BMC 识别故障电源并提交服务请求。
  2. 从 NVIDIA 企业支持部门获取更换电源。
  3. 使用图表作为参考和指示灯 LED 识别电源。
  4. 从要更换的电源上拔下电源线。
  5. 卸下故障电源。
  6. 插入新的电源。
  7. 插入电源线并确保两个 LED 指示灯都亮起绿灯 (IN/OUT)。
  8. 使用 BMC 确认电源工作正常。

识别故障的电源

从背面识别故障的电源

如果可以物理访问系统,则可以通过检查电源上的 LED 指示灯来识别故障的 PSU。

两个 LED 指示灯都应为常亮绿色。如果任何一个 LED 指示灯不是绿色,或者它们在闪烁,请联系 NVIDIA 企业支持部门以排除故障。

从控制台识别故障的电源

有几种方法可以从 DGX-2 控制台识别故障的 PSU。
  • 使用 NVSM CLI,如下所示。
    $ sudo nvsm show psus

    输出显示每个 PSU 的信息。查找任何未报告 Status_Health=OK 的 PSU。

  • 您也可以登录 BMC,然后从左侧菜单单击 传感器,并从 正常传感器 部分检查 PSU 信息。

NVSM 和 BMC 都将每个电源标识为 PSUx,其中 x 从 0 到 5。下图显示了每个 PSU 的物理位置。

识别电源制造商

输入以下 NVSM CLI 命令以查看系统中 PSU 的制造商。
$ sudo nvsm show psus |grep Manufacturer 

向 NVIDIA 企业支持部门请求更换 PSU,并注明此信息。

更换电源

  1. 确保您已获得更换的 PSU,并且已保存包装,以便在寄回故障 PSU 时使用。
  2. 确定是否需要关闭系统。
    • 如果剩余的五个 PSU 工作正常并已通电,则您无需关闭 DGX-2 系统的电源。
    • 如果少于五个 PSU 工作正常并已通电,则您需要关闭 DGX-2 系统的电源。
  3. 从要更换的 PSU 上拔下电源线。 您可能需要从固定夹上松开电源线。
  4. 卸下 PSU。
    1. 按下蓝色卡舌以释放锁。

    2. 拉动手柄以从机箱中卸下 PSU。

  5. 安装新的电源。
    1. 将新的电源插入机箱并将其完全推入,确保蓝色锁定机构啮合。
    2. 插入电源线并连接固定夹。
    3. 如果需要,请打开系统电源。
  6. 通过以下方式确认安装
    • 从 BMC 仪表板 -> 传感器 页面查看 PSU 状态。
    • 运行 nvsm show health 以确认系统运行状况。
包装旧电源并将其运回 NVIDIA 企业支持部门。