进程统计信息
- group DCGMAPI_PROCESS_STATS
描述用于调查 GPU 进程生命周期内的统计信息(如记帐、性能和错误)的 API。
函数
-
dcgmReturn_t dcgmWatchPidFields(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, long long updateFreq, double maxKeepAge, int maxKeepSamples)
请求 DCGM 开始记录可以使用 dcgmGetPidInfo() 查询的字段的统计信息。
请注意,字段的首次更新将在下一个字段更新周期才会发生。要强制执行字段更新周期,请调用 dcgmUpdateAllFields(1)。
- 参数:
pDcgmHandle – 输入:DCGM 句柄
groupId – 输入:组 ID,表示一个或多个 GPU 的集合。有关创建组的详细信息,请参阅 dcgmGroupCreate。或者,传入组 ID 作为 *DCGM_GROUP_ALL_GPUS* 以对所有 GPU 执行操作。
updateFreq – 输入:以微秒为单位更新此字段的频率
maxKeepAge – 输入:以此字段的数据保留时间(秒)
maxKeepSamples – 输入:要保留的最大样本数。0=无限制
- 返回值:
DCGM_ST_OK 如果调用成功
DCGM_ST_BADPARAM 如果参数无效
DCGM_ST_REQUIRES_ROOT 如果主机引擎以非 root 用户身份运行,并且无法启用记帐模式(需要 root 用户)。在启动 DCGM 之前,以 root 用户身份在节点上运行“nvidia-smi -am 1”以解决此问题。
-
dcgmReturn_t dcgmGetPidInfo(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, dcgmPidInfo_t *pidInfo)
获取提供的 PID 运行时所有 GPU 的信息。
为了使此请求工作,您必须首先调用 dcgmWatchPidFields() 以确保 DCGM 正在监视将在 pidInfo 中填充的相应字段 ID。
- 参数:
pDcgmHandle – 输入:DCGM 句柄
groupId – 输入:组 ID,表示一个或多个 GPU 的集合。有关创建组的详细信息,请参阅 dcgmGroupCreate。或者,传入组 ID 作为 *DCGM_GROUP_ALL_GPUS* 以对所有 GPU 执行操作。
pidInfo – 输入/输出:用于返回有关 PID 信息的结构。pidInfo->pid 必须设置为有问题的 PID。pidInfo->version 应设置为 dcgmPidInfo_version。
- 返回值:
DCGM_ST_OK 如果调用成功
DCGM_ST_NO_DATA 如果 PID 未在任何 GPU 上运行
-
dcgmReturn_t dcgmWatchPidFields(dcgmHandle_t pDcgmHandle, dcgmGpuGrp_t groupId, long long updateFreq, double maxKeepAge, int maxKeepSamples)