健康监视器

group DCGMAPI_HM

本章介绍处理 GPU 健康监视器的方法。

函数

dcgmReturn_t dcgmHealthSet(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthSystems_t systems)

dcgmHealthSystems_t 中给定的系统启用 DCGM 健康检查系统。

参数:
  • pDcgmHandle – IN: DCGM 句柄

  • groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请查看 dcgmGroupCreate。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。

  • systems – IN: 一个枚举,表示应为健康检查启用的系统,以逻辑 OR 运算组合在一起。有关详细信息,请参阅 dcgmHealthSystems_t

返回值:

dcgmReturn_t dcgmHealthSet_v2(dcgmHandle_t pDcgmHandle, dcgmHealthSetParams_v2 *params)

dcgmHealthSystems_t 中给定的系统启用 DCGM 健康检查系统。

自 DCGM 2.0 版本起

参数:
  • pDcgmHandle – IN: DCGM 句柄

  • healthSet – IN: 设置健康监视时要使用的参数。有关每个参数的描述,请参阅 dcgmHealthSetParams_v2

返回值:

dcgmReturn_t dcgmHealthGet(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthSystems_t *systems)

检索 DCGM 健康检查系统的当前状态。

参数:
  • pDcgmHandle – IN: DCGM 句柄

  • groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请查看 dcgmGroupCreate。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。

  • systems – OUT: 一个整数,表示给定组的已启用系统。有关详细信息,请参阅 dcgmHealthSystems_t

返回值:

dcgmReturn_t dcgmHealthCheck(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmHealthResponse_t *results)

检查配置的监视项,以查找自上次调用此检查以来发生的任何错误/故障/警告。

在首次调用时,将创建有关组内所有已启用监视项的状态信息,但不提供任何错误结果。在后续调用中,将返回任何错误信息。

参数:
  • pDcgmHandle – IN: DCGM 句柄

  • groupId – IN: 组 ID,表示一个或多个实体的集合。有关创建组的详细信息,请参阅 dcgmGroupCreate

  • results – OUT: 对要填充的 dcgmHealthResponse_t 结构的引用。results->version 必须设置为 dcgmHealthResponse_version。

返回值: