电源更换#

本主题介绍如何更换 NVIDIA DGX™ H100/H200 系统的电源 (PSU)。

电源更换概述#

这是更换电源所需步骤的概要。

  1. 通过琥珀色 LED 或电源编号识别故障电源

  2. 向 NVIDIA 企业支持部门请求更换。

  3. 从电源上拔下锁定电源线

  4. 更换电源

  5. 安装锁定电源线

  6. 确认电源上的两个 LED 都亮起绿灯

  7. 确保 BMC 报告没有电源故障

  8. 如果要求,请使用提供的包装将故障单元运回 NVIDIA 企业支持部门

识别故障电源#

您可以使用以下任何一种方法识别故障电源

  • 当系统通电时,从系统后部目视检查电源上的 LED。

  • 运行 nvsm show psus 命令并查看命令输出。

  • 访问 BMC Web 用户界面并查看传感器数据。

NVIDIA 企业支持部门可能会要求提供此信息或类似信息,以确认需要更换电源。

nvsm 命令输出和 BMC Web 用户界面将每个电源标识为 PSUx,其中 x05。下图显示了每个 PSU 的物理位置。

_images/dgxh100-psu-id.png

查看电源 LED

  • 访问系统后部,并在系统通电时查看状态 LED。

    _images/psu.png

    如果 PSU 良好,则两个 LED 均为常亮绿色。如果任何一个 LED 不是绿色或闪烁,请联系 NVIDIA 企业支持部门以排除故障。

运行 Show PSUs 命令

  • 运行以下命令以显示有关 PSU 的信息

    sudo nvsm show psus
    

    输出显示每个 PSU 的信息。查找任何未报告 Status_Health=OK 的 PSU。

从 BMC Web 用户界面查看 PSU

  1. 访问 BMC Web 用户界面,然后从左侧列中选择传感器

    • 确认 PSU 存在

      _images/bmc-health-2.png
    • 确认电源输出

      _images/bmc-health-3.png
    • 确认风扇速度

      _images/bmc-health-4.png
    • 确认 PSU 温度读数

      _images/bmc-health-5.png
  2. 运行 ipmitool 命令以查看有关 PSU 的信息

    sudo ipmitool sdr | grep -i psu
    

    查找没有温度读数或输出读数接近或等于零的电源。

确定制造商

重要提示

系统中所有 PSU 必须来自同一制造商。

  • 运行以下 nvsm 命令以确定 PSU 制造商

    sudo nvsm show /chassis/localhost/power/PSUx
    

    将前面的命令中的 x 替换为 PSU 标识符。

    示例输出

    以下输出适用于 PSU0,并显示制造商为 Delta。

    /chassis/localhost/power/PSU0
    Properties:
        FirmwareVersion = 02.02.02.01.02.02
        LastPowerOutputWatts = 0
        Manufacturer = Delta
        MemberId = PSU0
        Model = ECD16020137
        Name = PSU0
        Oem_PSU_Error = Presence detected| Power Supply AC Lost| AC Lost or out-of-range
        PowerSupplyType = AC
        SerialNumber = DTHTCT2233078
        Status_Health = Critical
        Status_State = Present
    Targets:
    Verbs:
        cd
        show
    

从 NVIDIA 企业支持部门获取(同一制造商的)更换 PSU。

准备更换电源#

  1. 如果系统已开启,请通过确认 IN 和 OUT LED 呈绿色亮起,确保至少有 4 个其他电源正常工作

    注意

    如果 PSU 不足且无法正常工作,请关闭系统电源。

  2. 从故障电源上拔下电源线。有关更多信息,请参阅 锁定电源线

    _images/pwr-supply.png

在新电源到达后,查看系统并确定需要更换哪个电源。系统能够在四个完全正常工作的电源下以全容量运行。如果系统已开启,请确保至少有四个电源完全正常工作。

更换电源#

  1. 按下绿色卡舌以解锁设备,然后拉动黑色手柄,从而卸下电源。

    小心

    电源从机箱中取出后,请在 30 秒内用新电源更换,以避免系统中的气流中断 - 尤其是在系统启动并运行时。

    _images/chassis-closed.png
  2. 用新设备更换电源,确保绿色卡舌锁定到位。

    _images/power-supply.png
  3. 插入新电源后,插入并锁定电源线,并确认新电源上的 IN 和 OUT LED 均呈绿色亮起。

  4. 从 BMC Web 用户界面,确认电源传感器正常。

  5. 运行 nvsm show health 命令,并确认输出未报告任何错误。

  6. 更换完成后,将故障电源退回 NVIDIA 企业支持部门。

锁定电源线#

如何使用随系统附带的扭锁式锁定电源线。

  1. 要插入电源线的 PDU 侧,请将电缆插入插头。要将其移除,请同时按下两侧的夹子以解锁电源线,然后将其从插头中拔出。

  2. 在电源侧,要插入电缆,首先确保电缆的灰色带或锁环设置为解锁。然后,将电缆插入电源插头,然后扭转锁环至锁定位置。

    _images/locking-pwr-cord.png
  3. 要从电源上移除电缆,请将锁环扭转到解锁位置,然后将电缆从插头中拔出。