分析

group DCGMAPI_PROFILING

本章介绍在 DCGM 中监视分析字段的方法。

函数

dcgmReturn_t dcgmProfGetSupportedMetricGroups(dcgmHandle_t pDcgmHandle, dcgmProfGetMetricGroups_t *metricGroups)

获取给定 GPU 组的所有分析指标组。

分析指标以字段组的形式一起监视。例如,如果您想监视 DCGM_FI_PROF_GR_ENGINE_ACTIVITY,它可能与 DCGM_FI_PROF_SM_EFFICIENCY 在同一组中。监视此组将导致 DCGM 存储这两个指标的值。

某些组不能与其他组同时监视,因为它们使用相同的硬件资源。例如,您可能无法在硬件上同时监视 DCGM_FI_PROF_TENSOR_OP_UTIL 和 DCGM_FI_PROF_GR_ENGINE_ACTIVITY。同时,您可能可以同时监视 DCGM_FI_PROF_TENSOR_OP_UTIL 和 DCGM_FI_PROF_NVLINK_TX_DATA。

可以同时监视的指标将在其 dcgmProfMetricGroupInfo_t 中具有不同的 .majorId 字段

有关创建 GPU 组的详细信息,请参阅 dcgmGroupCreate。请参阅 dcgmWatchFields 以实际监视底层分析字段

参数:
  • pDcgmHandle – IN: DCGM 句柄

  • metricGroups

    IN/OUT: 为 metricGroups->groupId 支持的指标组。

    调用时,metricGroups->version 应设置为 dcgmProfGetMetricGroups_version。

返回值:

dcgmReturn_t dcgmProfPause(dcgmHandle_t pDcgmHandle)

暂停 DCGM 中的分析活动。

当您从 DCGM 监视分析字段,但仍希望能够运行开发人员工具(如 nvprof、nsight systems 和 nsight compute)时,应使用此功能。分析字段以 DCGM_PROF_ 开头,并且在字段 ID 范围 1001-1012 中。

在启动这些工具之一之前调用此 API,并在工具完成后调用 dcgmProfResume()

暂停分析时,DCGM 将保存 BLANK 值。

在分析活动已暂停时调用此函数是可以的,并且将被视为空操作。

参数:

pDcgmHandle – IN: DCGM 句柄

返回值:

dcgmReturn_t dcgmProfResume(dcgmHandle_t pDcgmHandle)

恢复 DCGM 中先前使用 dcgmProfPause() 暂停的分析活动。

在您完成运行其他 NVIDIA 开发人员工具后调用此 API,以重新启用 DCGM 分析指标。

暂停分析时,DCGM 将保存 BLANK 值。

在分析活动已恢复时调用此函数是可以的,并且将被视为空操作。

参数:

pDcgmHandle – IN: DCGM 句柄

返回值: