电源封顶管理#
GPU 有三个电源限制来源
VBIOS:定义了最大可能的 TGP(总图形功耗)值。
nvidia-smi
工具:由用户通过主机设置 GPU 的功耗限制。SMBPBI:通过带外通道设置 GPU 的功耗限制。
GPU 性能监控单元 (PMU) 选择最保守的策略来限制系统的功耗。
查询当前 GPU 功耗限制#
使用以下 curl
命令查询当前 GPU 功耗限制
curl -k -u <username>:<password> https://<bmc>/redfish/v1/Systems/HGX_Baseboard_0/Processors/GPU_SXM_<id>/EnvironmentMetrics
其中
<bmc>
是 BMC IP 地址。<id>
是 GPU 实例编号,从1
到8
。
如下面的示例输出所示,“Reading”字段指示当前功耗,“SetPoint”字段指示当前 GPU 功耗限制。
...
"PowerLimitWatts": {
"AllowableMax": 700,
"AllowableMin": 200,
"ControlMode": "Automatic",
"DefaultSetPoint": 700,
"Reading": 64.388,
"SetPoint": 700
}
...
管理 N+N 配置 (IPMI)#
默认情况下,系统将使用三个电源启动。为了实现 N+N 配置的安全运行,您需要启用电源封顶功能以限制系统消耗的功率。
获取系统功耗限制
ipmitool raw 0x3c 0x80 0x05
响应的格式为 c8 32
。要转换此值
(0xc8 + 0x32 << 8) = 0x32c8 = 13000
如果该功能被禁用,则会返回一个大于 12,000 的值。
启用 PSU 冗余支持
要启用 PSU 冗余功能,请将功耗预算限制设置在实际系统预算之外。以下示例将功耗预算设置为 12 千瓦。
ipmitool raw x3c 0x81 0x05 0xE0 0x2E //Set 12 kW
启用电源封顶支持
为了使系统在低于 PSU 可以支持的最大功耗预算下运行,请设置一个低于以下值的限制
ipmitool raw x3c 0x81 0x05 <MSB> <LSB>
以下示例设置了 6 千瓦 (0x1770) 的限制
ipmitool raw 0x3c 0x81 0x05 0x70 0x17
使用 Redfish API 查询 GPU 功耗限制显示 562 瓦
...
"PowerLimitWatts": {
"AllowableMax": 700,
"AllowableMin": 200,
"ControlMode": "Automatic",
"DefaultSetPoint": 700,
"Reading": 64.335,
"SetPoint": 562
}
...
使用 Redfish API 管理电源封顶#
要使用 Redfish API 通过电源封顶管理系统的最大功耗,请参阅查询 GPU 功耗限制和电源封顶。