电源更换#

本章介绍如何更换 DGX A100 系统电源 (PSU) 之一。

电源更换概述#

这是更换电源所需步骤的概要。

  1. 通过 BMC 识别故障电源,并提交服务单。

  2. 从 NVIDIA 企业支持部门获取更换电源。

  3. 使用图示和指示灯 LED 识别电源。

  4. 从要更换的电源上拔下电源线。

  5. 用新电源更换故障电源。

  6. 插入电源线,并确保两个 LED 灯都亮起绿色 (IN/OUT)。

  7. 使用 BMC 确认电源工作正常。

  8. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门。

识别故障电源#

从背面识别故障电源#

如果可以物理访问系统,则可以在系统开机时通过检查电源上的 LED 来识别故障 PSU。

_images/psu-leds.png

两个 LED 灯都应为绿色常亮。如果任一 LED 灯不是绿色或闪烁,请联系 NVIDIA 企业支持部门以排查问题。

从控制台识别故障电源#

有几种方法可以从 DGX A100 控制台识别故障 PSU。

  • 按如下所示使用 NVSM CLI。

    $ sudo nvsm show psus
    

    输出显示每个 PSU 的信息。查找任何未报告 Status_Health=OK 的 PSU。

  • 从 BMC 查看 PSU 状态。

    从左侧菜单中单击 Sensor,然后从 Normal Sensors 部分检查 PSU 信息。

    _images/bmc-sensor-psu.png
  • 使用 ipmitool

    $ sudo ipmitool sdr |grep -i psu
    

    查找没有温度读数或输出读数接近或等于零的电源。

NVSM 和 BMC 都将每个电源标识为 PSUx,其中 x 为 0 到 5。下图显示了每个 PSU 的物理位置。

_images/dgxa100-psu-id.png

确定制造商#

重要提示

系统中所有 PSU 必须来自同一制造商。

发出以下命令以确定 PSU 制造商。

$ sudo nvsm show /chassis/localhost/power/PSUX

其中 X 对应于 PSU 标识符。以下示例使用 PSU0,并显示制造商为“Delta”。

$ sudo nvsm show /chassis/localhost/power/PSU0

/chassis/localhost/power/PSU0
Properties:
FirmwareVersion = 01.05.01.05.01.05
LastPowerOutputWatts = 312
Manufacturer = Delta
MemberId = PSU0
Model = ECD16010092
Name = PSU0
Oem_PSU_Error = <NOT_SET>
PowerSupplyType = AC
SerialNumber = DTHTCP200807M
Status_Health = OK
Status_State = Present
Targets:
Verbs:
cd
show

从 NVIDIA 企业支持部门获取(同一制造商的)更换 PSU。

更换电源#

  1. 请确保您已获得更换 PSU,并且已保存包装,以便在寄回故障 PSU 时使用。

  2. 确定是否需要关闭系统。

    • 如果剩余的三个 PSU 正常工作并已通电,则无需关闭 DGX A100 系统的电源。

    • 如果少于三个 PSU 正常工作并已通电,则关闭 DGX A100 系统的电源。

  3. 解锁电源线,然后将其从要更换的 PSU 上拔下。

    您可能需要将电源线从固定夹上取下。

  4. 卸下 PSU。

    1. 按下绿色卡舌以松开锁。

      _images/psu-green-tab.png
    2. 拉动黑色手柄以从机箱中取出 PSU。

      _images/psu-pull.png
  5. 安装新电源。

    1. 将新电源插入机箱并完全推入,确保绿色锁定机构啮合。

    2. 插入电源线并将其锁定到位。

    3. 如果需要,请开启系统电源。

  6. 通过以下方式确认安装

    • 从 BMC 仪表板->``Sensors`` 页面查看 PSU 状态。

    • 运行 nvsm show health 以确认所有电源都正常。

包装旧电源并将其运回 NVIDIA 企业支持部门。