管理电源封顶#

GPU 有三个电源限制来源

  • VBIOS:定义最大可能的 TGP(总图形功率)值。

  • nvidia-smi 工具:通过主机由用户设置 GPU 的功率限制。

  • SMBPBI:通过带外通道设置 GPU 的功率限制。

GPU 性能监控单元 (PMU) 选择最保守的策略来限制系统上的功耗。

管理 N+N 配置 (IPMI)#

默认情况下,系统将使用三个电源启动。要实现 N+N 配置的安全操作,您需要启用电源封顶功能来限制系统消耗的功率。

  1. 获取系统功率限制。

    ipmitool raw 0x3c 0x80 0x05
    

    响应的格式为 c8 32。要转换此值

    (0xc8 + 0x32 << 8) = 0x32c8 = 13000
    

    如果该功能被禁用,则会返回大于 12,000 的值。

  2. 启用 PSU 冗余支持。

    要启用 PSU 冗余功能,请将功率预算限制设置在实际系统预算之外。以下示例将功率预算设置为 12 千瓦。

    ipmitool raw x3c 0x81 0x05 0xE0 0x2E  //Set 12 kW
    

    注意

    从 24.07.1 版本开始,此功能默认禁用。

使用 Redfish API 管理电源封顶#

要通过使用 Redfish API 的电源封顶来管理系统上的最大功耗,请参阅 查询 GPU 功率限制电源封顶