电源更换#

电源更换概述#

这是 NVIDIA DGX™ B200 系统上更换电源的概要步骤。

  1. 通过琥珀色 LED 或电源编号识别故障电源。

  2. 向 NVIDIA 企业支持部门请求更换件。

  3. 从电源上拔下锁定电源线。

  4. 更换电源。

  5. 安装锁定电源线。

  6. 确认电源上的两个 LED 均亮起绿色。

  7. 确保 BMC 报告没有电源故障。

  8. 如果需要,请使用提供的包装将故障单元发送给 NVIDIA 企业支持部门。

识别故障电源#

您可以使用以下任何方法识别故障电源

  • 运行 sudo nvsm show health 命令以识别故障电源。

  • 访问 BMC Web 用户界面,并从左侧导航菜单栏中选择 Sensors(传感器)。

  • 从控制台,运行 ipmitool sdr | grep -i psu 命令。

    注意哪个电源没有温度读数或输出读数不正常(接近或等于零)。

联系 NVIDIA 企业支持部门以请求更换件。团队可能会要求提供此信息或类似信息,以确认是否需要更换电源。

nvsm 命令输出和 BMC Web 用户界面将每个电源标识为 PSUx,其中 x05。下图显示了每个 PSU 的物理位置。

_images/b200-psu-id.png

查看电源 LED

  • 访问系统后部,并在系统通电时查看状态 LED。

    _images/psu.png

    如果 PSU 良好,则两个 LED 都应为稳定的绿色。如果任一 LED 不是绿色或闪烁,请联系 NVIDIA 企业支持部门以排除故障。

运行 show psus 命令

  • 运行以下命令以显示有关 PSU 的信息

    sudo nvsm show psus
    

    输出显示每个 PSU 的信息。查找任何未报告 Status_Health=OK 的 PSU。

从 BMC Web 用户界面查看 PSU

  1. 访问 BMC Web 用户界面,并从左侧导航菜单栏中选择 Sensors(传感器)。

    • 确认 PSU 存在

      _images/b200-bmc-health-1.png
    • 确认功率输出

      _images/b200-bmc-health-2.png
    • 确认风扇速度

      _images/bmc-health-4.png
    • 确认 PSU 温度读数

      _images/b200-bmc-health-3.png
  2. 运行 ipmitool 命令以查看有关 PSU 的信息

    sudo ipmitool sdr | grep -i psu
    

    查找没有温度或输出读数接近或等于零的电源。

确定制造商

重要提示

系统中所有 PSU 必须来自同一制造商。

  • 运行以下 nvsm 命令以确定 PSU 制造商

    sudo nvsm show /chassis/localhost/power/PSUx
    

    将上述命令中的 x 替换为 PSU 标识符。

    示例输出

    以下是 PSU0 的输出,显示制造商为 Delta。

    /chassis/localhost/power/PSU0
    Properties:
        FirmwareVersion = 02.02.02.01.02.02
        LastPowerOutputWatts = 0
        Manufacturer = Delta
        MemberId = PSU0
        Model = ECD16020137
        Name = PSU0
        Oem_PSU_Error = Presence detected| Power Supply AC Lost| AC Lost or out-of-range
        PowerSupplyType = AC
        SerialNumber = DTHTCT2233078
        Status_Health = Critical
        Status_State = Present
    Targets:
    Verbs:
        cd
        show
    

从 NVIDIA 企业支持部门获取更换 PSU(与制造商相同)。

准备更换电源#

  1. 新电源到货后,查看系统并确定哪个需要更换。

  2. 如果系统已开启,请通过确认 IN 和 OUT LED 亮起绿色,确保至少有五个电源完全正常工作。

    系统可以在五个完全正常工作的电源下以全容量运行。

    注意

    如果 PSU 不足且无法工作,请关闭系统电源。

    _images/b200-psu-id.png _images/pwr-supply.png
  3. 从故障电源上拔下电源线,按照锁定电源线中描述的说明进行操作。

    在更换电源之前,请拔下锁定电源线。

更换电源#

  1. 按下绿色卡舌解锁装置,然后拉动黑色手柄,卸下电源。

    小心

    一旦电源从机箱中取出,请在 30 秒内用新电源更换,以避免系统中的气流中断 - 尤其是在系统启动并运行的情况下。

    _images/b200-chassis-closed.png
  2. 用新装置更换电源,确保绿色卡舌锁定到位。

    _images/b200-power-supply.png
  3. 安装锁定电源线。

  4. 确认新电源上的 IN 和 OUT LED 均亮起绿色。

  5. 确保 BMC Web UI 报告没有电源故障。

  6. 运行 sudo nvsm show health 命令,并确认输出未报告任何错误。

  7. 更换完成后,使用提供的包装将故障电源退回给 NVIDIA 企业支持部门。

锁定电源线#

要使用系统随附的扭锁式锁定电源线

  • 在配电单元 (PDU) 侧

    1. 要插入,请将电缆推入 PDU 插座。

    2. 要移除,请同时按下两侧的卡夹,将电源线从插座中拔出。

  • 在电源侧

    1. 确保电缆已解锁

      • 要插入,请将电缆推入插座。

      • 要移除,请将电缆从插座中拔出。

    2. 要解锁电源线,请将灰色锁定环扭转到解锁位置。

      指示器将显示一个解锁的挂锁。

    3. 要锁定电源线,请将灰色锁定环扭转到锁定位置。

      指示器将显示一个闭合的挂锁。

    _images/locking-pwr-cord.png