电源更换#
本章介绍如何更换 DGX A100 系统电源 (PSU) 之一。
电源更换概述#
这是更换电源所需步骤的概要。
通过 BMC 识别故障电源,并提交服务单。
从 NVIDIA 企业支持部门获取更换电源。
使用图示和指示灯 LED 识别电源。
从要更换的电源上拔下电源线。
用新电源更换故障电源。
插入电源线,并确保两个 LED 灯都亮起绿色 (IN/OUT)。
使用 BMC 确认电源工作正常。
使用提供的包装将故障单元运回 NVIDIA 企业支持部门。
识别故障电源#
从背面识别故障电源#
如果可以物理访问系统,则可以在系统开机时通过检查电源上的 LED 来识别故障 PSU。

两个 LED 灯都应为绿色常亮。如果任一 LED 灯不是绿色或闪烁,请联系 NVIDIA 企业支持部门以排查问题。
从控制台识别故障电源#
有几种方法可以从 DGX A100 控制台识别故障 PSU。
按如下所示使用 NVSM CLI。
$ sudo nvsm show psus
输出显示每个 PSU 的信息。查找任何未报告
Status_Health=OK
的 PSU。从 BMC 查看 PSU 状态。
从左侧菜单中单击 Sensor,然后从 Normal Sensors 部分检查 PSU 信息。
使用
ipmitool
。$ sudo ipmitool sdr |grep -i psu
查找没有温度读数或输出读数接近或等于零的电源。
NVSM 和 BMC 都将每个电源标识为 PSUx,其中 x 为 0 到 5。下图显示了每个 PSU 的物理位置。

确定制造商#
重要提示
系统中所有 PSU 必须来自同一制造商。
发出以下命令以确定 PSU 制造商。
$ sudo nvsm show /chassis/localhost/power/PSUX
其中 X 对应于 PSU 标识符。以下示例使用 PSU0,并显示制造商为“Delta”。
$ sudo nvsm show /chassis/localhost/power/PSU0
/chassis/localhost/power/PSU0
Properties:
FirmwareVersion = 01.05.01.05.01.05
LastPowerOutputWatts = 312
Manufacturer = Delta
MemberId = PSU0
Model = ECD16010092
Name = PSU0
Oem_PSU_Error = <NOT_SET>
PowerSupplyType = AC
SerialNumber = DTHTCP200807M
Status_Health = OK
Status_State = Present
Targets:
Verbs:
cd
show
从 NVIDIA 企业支持部门获取(同一制造商的)更换 PSU。
更换电源#
请确保您已获得更换 PSU,并且已保存包装,以便在寄回故障 PSU 时使用。
确定是否需要关闭系统。
如果剩余的三个 PSU 正常工作并已通电,则无需关闭 DGX A100 系统的电源。
如果少于三个 PSU 正常工作并已通电,则关闭 DGX A100 系统的电源。
解锁电源线,然后将其从要更换的 PSU 上拔下。
您可能需要将电源线从固定夹上取下。
卸下 PSU。
按下绿色卡舌以松开锁。
拉动黑色手柄以从机箱中取出 PSU。
安装新电源。
将新电源插入机箱并完全推入,确保绿色锁定机构啮合。
插入电源线并将其锁定到位。
如果需要,请开启系统电源。
通过以下方式确认安装
从 BMC 仪表板->``Sensors`` 页面查看 PSU 状态。
运行
nvsm show health
以确认所有电源都正常。
包装旧电源并将其运回 NVIDIA 企业支持部门。