电源封顶管理#

GPU 有三个电源限制来源

  • VBIOS:定义了最大可能的 TGP(总图形功耗)值。

  • nvidia-smi 工具:由用户通过主机设置 GPU 的功耗限制。

  • SMBPBI:通过带外通道设置 GPU 的功耗限制。

GPU 性能监控单元 (PMU) 选择最保守的策略来限制系统的功耗。

查询当前 GPU 功耗限制#

使用以下 curl 命令查询当前 GPU 功耗限制

curl  -k -u <username>:<password> https://<bmc>/redfish/v1/Systems/HGX_Baseboard_0/Processors/GPU_SXM_<id>/EnvironmentMetrics

其中

  • <bmc> 是 BMC IP 地址。

  • <id> 是 GPU 实例编号,从 18

如下面的示例输出所示,“Reading”字段指示当前功耗,“SetPoint”字段指示当前 GPU 功耗限制。

...

"PowerLimitWatts": {
        "AllowableMax": 700,
        "AllowableMin": 200,
        "ControlMode": "Automatic",
        "DefaultSetPoint": 700,
        "Reading": 64.388,
        "SetPoint": 700
}
...

管理 N+N 配置 (IPMI)#

默认情况下,系统将使用三个电源启动。为了实现 N+N 配置的安全运行,您需要启用电源封顶功能以限制系统消耗的功率。

获取系统功耗限制

ipmitool raw 0x3c 0x80 0x05

响应的格式为 c8 32。要转换此值

(0xc8 + 0x32 << 8) = 0x32c8 = 13000

如果该功能被禁用,则会返回一个大于 12,000 的值。

启用 PSU 冗余支持

要启用 PSU 冗余功能,请将功耗预算限制设置在实际系统预算之外。以下示例将功耗预算设置为 12 千瓦。

ipmitool raw x3c 0x81 0x05 0xE0 0x2E  //Set 12 kW

启用电源封顶支持

为了使系统在低于 PSU 可以支持的最大功耗预算下运行,请设置一个低于以下值的限制

ipmitool raw x3c 0x81 0x05 <MSB> <LSB>

以下示例设置了 6 千瓦 (0x1770) 的限制

ipmitool raw 0x3c 0x81 0x05 0x70 0x17

使用 Redfish API 查询 GPU 功耗限制显示 562 瓦

...

"PowerLimitWatts": {
        "AllowableMax": 700,
        "AllowableMin": 200,
        "ControlMode": "Automatic",
        "DefaultSetPoint": 700,
        "Reading": 64.335,
        "SetPoint": 562
}
...

使用 Redfish API 管理电源封顶#

要使用 Redfish API 通过电源封顶管理系统的最大功耗,请参阅查询 GPU 功耗限制电源封顶