电源更换#
电源更换概述#
这是 NVIDIA DGX™ B200 系统上更换电源的概要步骤。
通过琥珀色 LED 或电源编号识别故障电源。
向 NVIDIA 企业支持部门请求更换件。
从电源上拔下锁定电源线。
更换电源。
安装锁定电源线。
确认电源上的两个 LED 均亮起绿色。
确保 BMC 报告没有电源故障。
如果需要,请使用提供的包装将故障单元发送给 NVIDIA 企业支持部门。
识别故障电源#
您可以使用以下任何方法识别故障电源
运行
sudo nvsm show health
命令以识别故障电源。访问 BMC Web 用户界面,并从左侧导航菜单栏中选择 Sensors(传感器)。
从控制台,运行
ipmitool sdr | grep -i psu
命令。注意哪个电源没有温度读数或输出读数不正常(接近或等于零)。
联系 NVIDIA 企业支持部门以请求更换件。团队可能会要求提供此信息或类似信息,以确认是否需要更换电源。
nvsm
命令输出和 BMC Web 用户界面将每个电源标识为 PSUx
,其中 x 是 0
到 5
。下图显示了每个 PSU 的物理位置。

查看电源 LED
运行 show psus 命令
运行以下命令以显示有关 PSU 的信息
sudo nvsm show psus
输出显示每个 PSU 的信息。查找任何未报告
Status_Health=OK
的 PSU。
从 BMC Web 用户界面查看 PSU
访问 BMC Web 用户界面,并从左侧导航菜单栏中选择 Sensors(传感器)。
确认 PSU 存在
确认功率输出
确认风扇速度
确认 PSU 温度读数
运行
ipmitool
命令以查看有关 PSU 的信息sudo ipmitool sdr | grep -i psu
查找没有温度或输出读数接近或等于零的电源。
确定制造商
重要提示
系统中所有 PSU 必须来自同一制造商。
运行以下
nvsm
命令以确定 PSU 制造商sudo nvsm show /chassis/localhost/power/PSUx
将上述命令中的 x 替换为 PSU 标识符。
示例输出
以下是 PSU0 的输出,显示制造商为 Delta。
/chassis/localhost/power/PSU0 Properties: FirmwareVersion = 02.02.02.01.02.02 LastPowerOutputWatts = 0 Manufacturer = Delta MemberId = PSU0 Model = ECD16020137 Name = PSU0 Oem_PSU_Error = Presence detected| Power Supply AC Lost| AC Lost or out-of-range PowerSupplyType = AC SerialNumber = DTHTCT2233078 Status_Health = Critical Status_State = Present Targets: Verbs: cd show
从 NVIDIA 企业支持部门获取更换 PSU(与制造商相同)。
准备更换电源#
新电源到货后,查看系统并确定哪个需要更换。
如果系统已开启,请通过确认 IN 和 OUT LED 亮起绿色,确保至少有五个电源完全正常工作。
系统可以在五个完全正常工作的电源下以全容量运行。
注意
如果 PSU 不足且无法工作,请关闭系统电源。
从故障电源上拔下电源线,按照锁定电源线中描述的说明进行操作。
在更换电源之前,请拔下锁定电源线。
更换电源#
按下绿色卡舌解锁装置,然后拉动黑色手柄,卸下电源。
小心
一旦电源从机箱中取出,请在 30 秒内用新电源更换,以避免系统中的气流中断 - 尤其是在系统启动并运行的情况下。
用新装置更换电源,确保绿色卡舌锁定到位。
安装锁定电源线。
确认新电源上的 IN 和 OUT LED 均亮起绿色。
确保 BMC Web UI 报告没有电源故障。
运行
sudo nvsm show health
命令,并确认输出未报告任何错误。更换完成后,使用提供的包装将故障电源退回给 NVIDIA 企业支持部门。
锁定电源线#
要使用系统随附的扭锁式锁定电源线