健康监视器
- group DCGMAPI_HM
本章介绍处理 GPU 健康监视器的方法。
函数
-
dcgmReturn_t dcgmHealthSet(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthSystems_t systems)
为 dcgmHealthSystems_t 中给定的系统启用 DCGM 健康检查系统。
- 参数:
pDcgmHandle – IN: DCGM 句柄
groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请查看 dcgmGroupCreate。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。
systems – IN: 一个枚举,表示应为健康检查启用的系统,以逻辑 OR 运算组合在一起。有关详细信息,请参阅 dcgmHealthSystems_t。
- 返回值:
如果调用成功,则返回 DCGM_ST_OK
如果参数无效,则返回 DCGM_ST_BADPARAM
-
dcgmReturn_t dcgmHealthSet_v2(dcgmHandle_t pDcgmHandle, dcgmHealthSetParams_v2 *params)
为 dcgmHealthSystems_t 中给定的系统启用 DCGM 健康检查系统。
自 DCGM 2.0 版本起
- 参数:
pDcgmHandle – IN: DCGM 句柄
healthSet – IN: 设置健康监视时要使用的参数。有关每个参数的描述,请参阅 dcgmHealthSetParams_v2。
- 返回值:
如果调用成功,则返回 DCGM_ST_OK
如果参数无效,则返回 DCGM_ST_BADPARAM
-
dcgmReturn_t dcgmHealthGet(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthSystems_t *systems)
检索 DCGM 健康检查系统的当前状态。
- 参数:
pDcgmHandle – IN: DCGM 句柄
groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请查看 dcgmGroupCreate。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。
systems – OUT: 一个整数,表示给定组的已启用系统。有关详细信息,请参阅 dcgmHealthSystems_t。
- 返回值:
如果调用成功,则返回 DCGM_ST_OK
如果参数无效,则返回 DCGM_ST_BADPARAM
-
dcgmReturn_t dcgmHealthCheck(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthResponse_t *results)
检查配置的监视项,以查找自上次调用此检查以来发生的任何错误/故障/警告。
在首次调用时,将创建有关组内所有已启用监视项的状态信息,但不提供任何错误结果。在后续调用中,将返回任何错误信息。
- 参数:
pDcgmHandle – IN: DCGM 句柄
groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请参阅 dcgmGroupCreate
results – OUT: 对要填充的 dcgmHealthResponse_t 结构的引用。results->version 必须设置为 dcgmHealthResponse_version。
- 返回值:
如果调用成功,则返回 DCGM_ST_OK
如果参数无效,则返回 DCGM_ST_BADPARAM
如果 results->version 不是 dcgmHealthResponse_version,则返回 DCGM_ST_VER_MISMATCH
-
dcgmReturn_t dcgmHealthSet(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthSystems_t systems)