分析
- group DCGMAPI_PROFILING
本章介绍在 DCGM 中监视分析字段的方法。
函数
-
dcgmReturn_t dcgmProfGetSupportedMetricGroups(dcgmHandle_t pDcgmHandle, dcgmProfGetMetricGroups_t *metricGroups)
获取给定 GPU 组的所有分析指标组。
分析指标以字段组的形式一起监视。例如,如果您想监视 DCGM_FI_PROF_GR_ENGINE_ACTIVITY,它可能与 DCGM_FI_PROF_SM_EFFICIENCY 在同一组中。监视此组将导致 DCGM 存储这两个指标的值。
某些组不能与其他组同时监视,因为它们使用相同的硬件资源。例如,您可能无法在硬件上同时监视 DCGM_FI_PROF_TENSOR_OP_UTIL 和 DCGM_FI_PROF_GR_ENGINE_ACTIVITY。同时,您可能可以同时监视 DCGM_FI_PROF_TENSOR_OP_UTIL 和 DCGM_FI_PROF_NVLINK_TX_DATA。
可以同时监视的指标将在其 dcgmProfMetricGroupInfo_t 中具有不同的 .majorId 字段
有关创建 GPU 组的详细信息,请参阅 dcgmGroupCreate。请参阅 dcgmWatchFields 以实际监视底层分析字段
- 参数:
pDcgmHandle – IN: DCGM 句柄
metricGroups –
IN/OUT: 为 metricGroups->groupId 支持的指标组。
调用时,metricGroups->version 应设置为 dcgmProfGetMetricGroups_version。
- 返回值:
DCGM_ST_OK 如果请求成功。
DCGM_ST_BADPARAM 如果参数缺失或错误。
DCGM_ST_GROUP_INCOMPATIBLE 如果 metricGroups->groupId 的 GPU 不是相同的 GPU。
DCGM_ST_NOT_SUPPORTED 如果给定的 GPU 组不支持分析指标。
-
dcgmReturn_t dcgmProfPause(dcgmHandle_t pDcgmHandle)
暂停 DCGM 中的分析活动。
当您从 DCGM 监视分析字段,但仍希望能够运行开发人员工具(如 nvprof、nsight systems 和 nsight compute)时,应使用此功能。分析字段以 DCGM_PROF_ 开头,并且在字段 ID 范围 1001-1012 中。
在启动这些工具之一之前调用此 API,并在工具完成后调用 dcgmProfResume()。
暂停分析时,DCGM 将保存 BLANK 值。
在分析活动已暂停时调用此函数是可以的,并且将被视为空操作。
- 参数:
pDcgmHandle – IN: DCGM 句柄
- 返回值:
DCGM_ST_OK 如果调用成功。
DCGM_ST_BADPARAM 如果参数无效。
-
dcgmReturn_t dcgmProfResume(dcgmHandle_t pDcgmHandle)
恢复 DCGM 中先前使用 dcgmProfPause() 暂停的分析活动。
在您完成运行其他 NVIDIA 开发人员工具后调用此 API,以重新启用 DCGM 分析指标。
暂停分析时,DCGM 将保存 BLANK 值。
在分析活动已恢复时调用此函数是可以的,并且将被视为空操作。
- 参数:
pDcgmHandle – IN: DCGM 句柄
- 返回值:
DCGM_ST_OK 如果调用成功。
DCGM_ST_BADPARAM 如果参数无效。
-
dcgmReturn_t dcgmProfGetSupportedMetricGroups(dcgmHandle_t pDcgmHandle, dcgmProfGetMetricGroups_t *metricGroups)