电源更换#
本主题介绍如何更换 NVIDIA DGX™ H100/H200 系统的电源 (PSU)。
电源更换概述#
这是更换电源所需步骤的概要。
通过琥珀色 LED 或电源编号识别故障电源
向 NVIDIA 企业支持部门请求更换。
从电源上拔下锁定电源线
更换电源
安装锁定电源线
确认电源上的两个 LED 都亮起绿灯
确保 BMC 报告没有电源故障
如果要求,请使用提供的包装将故障单元运回 NVIDIA 企业支持部门
识别故障电源#
您可以使用以下任何一种方法识别故障电源
当系统通电时,从系统后部目视检查电源上的 LED。
运行
nvsm show psus
命令并查看命令输出。访问 BMC Web 用户界面并查看传感器数据。
NVIDIA 企业支持部门可能会要求提供此信息或类似信息,以确认需要更换电源。
nvsm
命令输出和 BMC Web 用户界面将每个电源标识为 PSUx
,其中 x 是 0
到 5
。下图显示了每个 PSU 的物理位置。

查看电源 LED
运行 Show PSUs 命令
运行以下命令以显示有关 PSU 的信息
sudo nvsm show psus
输出显示每个 PSU 的信息。查找任何未报告
Status_Health=OK
的 PSU。
从 BMC Web 用户界面查看 PSU
访问 BMC Web 用户界面,然后从左侧列中选择传感器。
确认 PSU 存在
确认电源输出
确认风扇速度
确认 PSU 温度读数
运行
ipmitool
命令以查看有关 PSU 的信息sudo ipmitool sdr | grep -i psu
查找没有温度读数或输出读数接近或等于零的电源。
确定制造商
重要提示
系统中所有 PSU 必须来自同一制造商。
运行以下
nvsm
命令以确定 PSU 制造商sudo nvsm show /chassis/localhost/power/PSUx
将前面的命令中的 x 替换为 PSU 标识符。
示例输出
以下输出适用于 PSU0,并显示制造商为 Delta。
/chassis/localhost/power/PSU0 Properties: FirmwareVersion = 02.02.02.01.02.02 LastPowerOutputWatts = 0 Manufacturer = Delta MemberId = PSU0 Model = ECD16020137 Name = PSU0 Oem_PSU_Error = Presence detected| Power Supply AC Lost| AC Lost or out-of-range PowerSupplyType = AC SerialNumber = DTHTCT2233078 Status_Health = Critical Status_State = Present Targets: Verbs: cd show
从 NVIDIA 企业支持部门获取(同一制造商的)更换 PSU。
准备更换电源#
如果系统已开启,请通过确认 IN 和 OUT LED 呈绿色亮起,确保至少有 4 个其他电源正常工作
注意
如果 PSU 不足且无法正常工作,请关闭系统电源。
从故障电源上拔下电源线。有关更多信息,请参阅 锁定电源线。
在新电源到达后,查看系统并确定需要更换哪个电源。系统能够在四个完全正常工作的电源下以全容量运行。如果系统已开启,请确保至少有四个电源完全正常工作。
更换电源#
按下绿色卡舌以解锁设备,然后拉动黑色手柄,从而卸下电源。
小心
电源从机箱中取出后,请在 30 秒内用新电源更换,以避免系统中的气流中断 - 尤其是在系统启动并运行时。
用新设备更换电源,确保绿色卡舌锁定到位。
插入新电源后,插入并锁定电源线,并确认新电源上的 IN 和 OUT LED 均呈绿色亮起。
从 BMC Web 用户界面,确认电源传感器正常。
运行
nvsm show health
命令,并确认输出未报告任何错误。更换完成后,将故障电源退回 NVIDIA 企业支持部门。
锁定电源线#
如何使用随系统附带的扭锁式锁定电源线。