数据结构

group dcgmStructs

未命名组

DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"

用于运行 GPU 诊断的标志选项。

DCGM_RUN_FLAGS_VERBOSE 0x0001

以详细模式输出;包括信息以及警告。

DCGM_RUN_FLAGS_STATSONFAIL 0x0002

仅在失败时输出统计信息。

DCGM_RUN_FLAGS_TRAIN 0x0004

未使用 训练 DCGM 诊断并输出包含黄金值的配置文件。

DCGM_RUN_FLAGS_FORCE_TRAIN 0x0008

未使用 忽略针对训练诊断的警告并强制训练。

DCGM_RUN_FLAGS_FAIL_EARLY 0x0010

为目标压力测试、目标功耗测试、SM 压力测试和诊断测试启用提前失败检查。

未命名组

DCGM_TOPO_HINT_F_NONE 0x00000000

用于 dcgmSelectGpusByTopology() 的拓扑提示

未指定任何提示

DCGM_TOPO_HINT_F_IGNOREHEALTH 0x00000001

在为作业执行选择 GPU 时,忽略 GPU 的健康状况。

默认情况下,仅考虑健康的 GPU。

定义

dcgmConnectV2Params_version1 MAKE_DCGM_VERSION(dcgmConnectV2Params_v1, 1)

dcgmConnectV2Params_v1 的版本 1。

dcgmConnectV2Params_version2 MAKE_DCGM_VERSION(dcgmConnectV2Params_v2, 2)

dcgmConnectV2Params_v2 的版本 2。

dcgmConnectV2Params_version dcgmConnectV2Params_version2

dcgmConnectV2Params_t 的最新版本。

dcgmHostengineHealth_version1 MAKE_DCGM_VERSION(dcgmHostengineHealth_v1, 1)
dcgmHostengineHealth_version dcgmHostengineHealth_version1

dcgmHostengineHealth_t 的最新版本。

dcgmGroupInfo_version2 MAKE_DCGM_VERSION(dcgmGroupInfo_v2, 2)

dcgmGroupInfo_v2 的版本 2。

dcgmGroupInfo_version3 MAKE_DCGM_VERSION(dcgmGroupInfo_v3, 3)

dcgmGroupInfo_v3 的版本 3。

dcgmGroupInfo_version dcgmGroupInfo_version3

dcgmGroupInfo_t 的最新版本。

DCGM_MAX_INSTANCES_PER_GPU 8
DCGM_MAX_COMPUTE_INSTANCES_PER_GPU DCGM_MAX_INSTANCES_PER_GPU
DCGM_MAX_TOTAL_INSTANCES_PER_GPU 14
DCGM_MAX_HIERARCHY_INFO DCGM_MAX_NUM_DEVICES *DCGM_MAX_TOTAL_INSTANCES_PER_GPU
DCGM_MAX_INSTANCES DCGM_MAX_NUM_DEVICES *DCGM_MAX_INSTANCES_PER_GPU
DCGM_MAX_COMPUTE_INSTANCES DCGM_MAX_INSTANCES
dcgmMigHierarchy_version2 MAKE_DCGM_VERSION(dcgmMigHierarchy_v2, 2)
dcgmMigHierarchy_version dcgmMigHierarchy_version2
DCGM_CPU_CORE_BITMASK_COUNT_V1 (DCGM_MAX_NUM_CPU_CORES / sizeof(uint64_t) / CHAR_BIT)

位掩码,指示此 CPU 拥有的内核。

dcgmCpuHierarchyOwnedCores_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchyOwnedCores_v1, 1)
dcgmCpuHierarchy_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v1, 1)

dcgmCpuHierarchy_t 的版本 1。

dcgmCpuHierarchy_version2 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v2, 2)

dcgmCpuHierarchy_t 的版本 2。

dcgmCpuHierarchy_version dcgmCpuHierarchy_version2

dcgmCpuHierarchy_t 的最新版本。

DCGM_MAX_NUM_FIELD_GROUPS 64

可以存在的字段组的最大数量。

DCGM_MAX_FIELD_IDS_PER_FIELD_GROUP 128

单个字段组中可以包含的最大字段 ID 数量。

dcgmFieldGroupInfo_version1 MAKE_DCGM_VERSION(dcgmFieldGroupInfo_v1, 1)

dcgmFieldGroupInfo_v1 的版本 1。

dcgmFieldGroupInfo_version dcgmFieldGroupInfo_version1

dcgmFieldGroupInfo_t 的最新版本。

dcgmAllFieldGroup_version1 MAKE_DCGM_VERSION(dcgmAllFieldGroup_v1, 1)

dcgmAllFieldGroup_v1 的版本 1。

dcgmAllFieldGroup_version dcgmAllFieldGroup_version1

dcgmAllFieldGroup_t 的最新版本。

dcgmClockSet_version1 MAKE_DCGM_VERSION(dcgmClockSet_v1, 1)

dcgmClockSet_v1 的版本 1。

dcgmClockSet_version dcgmClockSet_version1

dcgmClockSet_t 的最新版本。

dcgmDeviceSupportedClockSets_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedClockSets_v1, 1)

dcgmDeviceSupportedClockSets_v1 的版本 1。

dcgmDeviceSupportedClockSets_version dcgmDeviceSupportedClockSets_version1

dcgmDeviceSupportedClockSets_t 的最新版本。

dcgmDevicePidAccountingStats_version1 MAKE_DCGM_VERSION(dcgmDevicePidAccountingStats_v1, 1)

dcgmDevicePidAccountingStats_v1 的版本 1。

dcgmDevicePidAccountingStats_version dcgmDevicePidAccountingStats_version1

dcgmDevicePidAccountingStats_t 的最新版本。

dcgmDeviceThermals_version1 MAKE_DCGM_VERSION(dcgmDeviceThermals_v1, 1)

dcgmDeviceThermals_v1 的版本 1。

dcgmDeviceThermals_version dcgmDeviceThermals_version1

dcgmDeviceThermals_t 的最新版本。

dcgmDevicePowerLimits_version1 MAKE_DCGM_VERSION(dcgmDevicePowerLimits_v1, 1)

dcgmDevicePowerLimits_v1 的版本 1。

dcgmDevicePowerLimits_version dcgmDevicePowerLimits_version1

dcgmDevicePowerLimits_t 的最新版本。

dcgmDeviceIdentifiers_version1 MAKE_DCGM_VERSION(dcgmDeviceIdentifiers_v1, 1)

dcgmDeviceIdentifiers_v1 的版本 1。

dcgmDeviceIdentifiers_version dcgmDeviceIdentifiers_version1

dcgmDeviceIdentifiers_t 的最新版本。

dcgmDeviceMemoryUsage_version1 MAKE_DCGM_VERSION(dcgmDeviceMemoryUsage_v1, 1)

dcgmDeviceMemoryUsage_v1 的版本 1。

dcgmDeviceMemoryUsage_version dcgmDeviceMemoryUsage_version1

dcgmDeviceMemoryUsage_t 的最新版本。

dcgmDeviceVgpuUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuUtilInfo_v1, 1)

dcgmDeviceVgpuUtilInfo_v1 的版本 1。

dcgmDeviceVgpuUtilInfo_version dcgmDeviceVgpuUtilInfo_version1

dcgmDeviceVgpuUtilInfo_t 的最新版本。

dcgmDeviceEncStats_version1 MAKE_DCGM_VERSION(dcgmDeviceEncStats_v1, 1)

dcgmDeviceEncStats_v1 的版本 1。

dcgmDeviceEncStats_version dcgmDeviceEncStats_version1

dcgmDeviceEncStats_t 的最新版本。

dcgmDeviceFbcStats_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcStats_v1, 1)

dcgmDeviceFbcStats_v1 的版本 1。

dcgmDeviceFbcStats_version dcgmDeviceFbcStats_version1

dcgmDeviceEncStats_t 的最新版本。

dcgmDeviceFbcSessionInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcSessionInfo_v1, 1)

dcgmDeviceFbcSessionInfo_v1 的版本 1。

dcgmDeviceFbcSessionInfo_version dcgmDeviceFbcSessionInfo_version1

dcgmDeviceFbcSessionInfo_t 的最新版本。

dcgmDeviceFbcSessions_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcSessions_v1, 1)

dcgmDeviceFbcSessions_v1 的版本 1。

dcgmDeviceFbcSessions_version dcgmDeviceFbcSessions_version1

dcgmDeviceFbcSessions_t 的最新版本。

dcgmDeviceVgpuEncSessions_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuEncSessions_v1, 1)

dcgmDeviceVgpuEncSessions_v1 的版本 1。

dcgmDeviceVgpuEncSessions_version dcgmDeviceVgpuEncSessions_version1

dcgmDeviceVgpuEncSessions_t 的最新版本。

dcgmDeviceVgpuProcessUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuProcessUtilInfo_v1, 1)

dcgmDeviceVgpuProcessUtilInfo_v1 的版本 1。

dcgmDeviceVgpuProcessUtilInfo_version dcgmDeviceVgpuProcessUtilInfo_version1

dcgmDeviceVgpuProcessUtilInfo_t 的最新版本。

dcgmDeviceVgpuTypeInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuTypeInfo_v1, 1)

dcgmDeviceVgpuTypeInfo_v1 的版本 1。

dcgmDeviceVgpuTypeInfo_version2 MAKE_DCGM_VERSION(dcgmDeviceVgpuTypeInfo_v2, 2)

dcgmDeviceVgpuTypeInfo_v2 的版本 2。

dcgmDeviceVgpuTypeInfo_version dcgmDeviceVgpuTypeInfo_version2

dcgmDeviceVgpuTypeInfo_t 的最新版本。

dcgmDeviceSupportedVgpuTypeInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedVgpuTypeInfo_v1, 1)

dcgmDeviceSupportedVgpuTypeInfo_v1 的版本 1。

dcgmDeviceSupportedVgpuTypeInfo_version dcgmDeviceSupportedVgpuTypeInfo_version1

dcgmDeviceSupportedVgpuTypeInfo_t 的最新版本。

dcgmDeviceSettings_version2 MAKE_DCGM_VERSION(dcgmDeviceSettings_v2, 2)
dcgmDeviceSettings_version dcgmDeviceSettings_version2
dcgmDeviceAttributes_version3 MAKE_DCGM_VERSION(dcgmDeviceAttributes_v3, 3)

dcgmDeviceAttributes_v3 的版本 3。

dcgmDeviceAttributes_version dcgmDeviceAttributes_version3

dcgmDeviceAttributes_t 的最新版本。

dcgmDeviceMigAttributesInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceMigAttributesInfo_v1, 1)

dcgmDeviceMigAttributesInfo_v1 的版本 1。

dcgmDeviceMigAttributesInfo_version dcgmDeviceMigAttributesInfo_version1

dcgmDeviceMigAttributesInfo_t 的最新版本。

dcgmDeviceMigAttributes_version1 MAKE_DCGM_VERSION(dcgmDeviceMigAttributes_v1, 1)

dcgmDeviceMigAttributes_v1 的版本 1。

dcgmDeviceMigAttributes_version dcgmDeviceMigAttributes_version1

dcgmDeviceMigAttributes_t 的最新版本。

dcgmGpuInstanceProfileInfo_version1 MAKE_DCGM_VERSION(dcgmGpuInstanceProfileInfo_v1, 1)

dcgmGpuInstanceProfileInfo_v1 的版本 1。

dcgmGpuInstanceProfileInfo_version dcgmGpuInstanceProfileInfo_version1

dcgmGpuInstanceProfileInfo_t 的最新版本。

dcgmGpuInstanceProfiles_version1 MAKE_DCGM_VERSION(dcgmGpuInstanceProfiles_v1, 1)

dcgmGpuInstanceProfiles_v1 的版本 1。

dcgmGpuInstanceProfiles_version dcgmGpuInstanceProfiles_version1

dcgmGpuInstanceProfiles_t 的最新版本。

dcgmComputeInstanceProfileInfo_version1 MAKE_DCGM_VERSION(dcgmComputeInstanceProfileInfo_v1, 1)

dcgmComputeInstanceProfileInfo_v1 的版本 1。

dcgmComputeInstanceProfileInfo_version dcgmComputeInstanceProfileInfo_version1

dcgmComputeInstanceProfileInfo_t 的最新版本。

dcgmComputeInstanceProfiles_version1 MAKE_DCGM_VERSION(dcgmComputeInstanceProfiles_v1, 1)

dcgmComputeInstanceProfiles_v1 的版本 1。

dcgmComputeInstanceProfiles_version dcgmComputeInstanceProfiles_version1

dcgmComputeInstanceProfiles_t 的最新版本。

DCGM_MAX_VGPU_TYPES_PER_PGPU 32

每个物理 GPU 的最大 vGPU 类型数量。

DCGM_DEVICE_UUID_BUFFER_SIZE 80

表示保存与 vGPU 实例特定属性相关的字符串的缓冲区大小。

DCGM_POWER_PROFILE_ARRAY_SIZE 8

工作负载功耗配置文件信息。

DCGM_POWER_PROFILE_MASK_BITS_PER_ELEM 32
DCGM_POWER_PROFILE_MAX_NUM (255)
dcgmWorkloadPowerProfileInfo_version1 MAKE_DCGM_VERSION(dcgmWorkloadPowerProfileInfo_v1, 1)
dcgmWorkloadPowerProfileInfo_version dcgmWorkloadPowerProfileInfo_version1
dcgmWorkloadPowerProfileProfilesInfo_version1 MAKE_DCGM_VERSION(dcgmWorkloadPowerProfileProfilesInfo_v1, 1)
dcgmWorkloadPowerProfileProfilesInfo_version dcgmWorkloadPowerProfileProfilesInfo_version1
dcgmDeviceWorkloadPowerProfilesStatus_version1 MAKE_DCGM_VERSION(dcgmDeviceWorkloadPowerProfilesStatus_v1, 1)
dcgmDeviceWorkloadPowerProfilesStatus_version dcgmDeviceWorkloadPowerProfilesStatus_version1
dcgmConfig_version1 MAKE_DCGM_VERSION(dcgmConfig_v1, 1)

dcgmConfig_v1 的版本 1。

dcgmConfig_version2 MAKE_DCGM_VERSION(dcgmConfig_v2, 2)
dcgmConfig_version dcgmConfig_version2

dcgmConfig_t 的最新版本。

dcgmPolicyViolation_version1 MAKE_DCGM_VERSION(dcgmPolicyViolation_v1, 1)
dcgmPolicyViolation_version dcgmPolicyViolation_version1
DCGM_POLICY_COND_IDX_MAX 7
DCGM_POLICY_COND_MAX DCGM_POLICY_COND_IDX_MAX
dcgmPolicy_version1 MAKE_DCGM_VERSION(dcgmPolicy_v1, 1)

dcgmPolicy_v1 的版本 1。

dcgmPolicy_version dcgmPolicy_version1

dcgmPolicy_t 的最新版本。

dcgmPolicyCallbackResponse_version2 MAKE_DCGM_VERSION(dcgmPolicyCallbackResponse_v2, 2)

dcgmPolicyCallbackResponse_v2 的版本 2。

dcgmPolicyCallbackResponse_version dcgmPolicyCallbackResponse_version2

dcgmPolicyCallbackResponse_t 的最新版本。

DCGM_MAX_BLOB_LENGTH 4096

设置最大 blob 条目之上的大小。

目前这是 dcgmDeviceVgpuTypeInfo_v1

dcgmFieldValue_version1 MAKE_DCGM_VERSION(dcgmFieldValue_v1, 1)

dcgmFieldValue_v1 的版本 1。

dcgmFieldValue_version2 MAKE_DCGM_VERSION(dcgmFieldValue_v2, 2)

dcgmFieldValue_v2 的版本 2。

DCGM_FV_FLAG_LIVE_DATA 0x00000001

字段值标志由 dcgmEntitiesGetLatestValues 使用。

从驱动程序而不是缓存数据中检索实时数据。警告:设置此标志将导致多次调用 NVIDIA 驱动程序,这将比检索缓存值慢得多。

DCGM_HEALTH_WATCH_COUNT_V1 10

用于迭代 dcgmHealthSystems_v1 枚举

DCGM_HEALTH_WATCH_COUNT_V2 12

用于迭代 dcgmHealthSystems_v2 枚举

DCGM_ERR_MSG_LENGTH 512
DCGM_DIAG_AUX_DATA_LEN 2048
dcgmDiagTestAuxData_version1 MAKE_DCGM_VERSION(dcgmDiagTestAuxData_v1, 1)

dcgmDiagTestAuxData_v1 的版本 1。

dcgmDiagTestAuxData_version dcgmDiagTestAuxData_version1
DCGM_DIAG_TEST_RUN_ERROR_INDICES_MAX 32

可以报告的每个实体的最大错误数。

DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX 16

可以报告的每个实体的最大信息消息数。

DCGM_DIAG_TEST_RUN_RESULTS_MAX     DCGM_GROUP_MAX_ENTITIES_V2

可以报告的每个实体的最大结果数。

DCGM_DIAG_TEST_RUN_NAME_LEN 32

用于名称的最大字符数(包括“\0”)。

DCGM_DEVICE_ID_LEN 5

SKU 设备 ID(字符串)

DCGM_VERSION_LEN 12

DCGM 版本(字符串)

DCGM_HEALTH_WATCH_MAX_INCIDENTS_V2 DCGM_GROUP_MAX_ENTITIES_V2
dcgmHealthResponse_version5 MAKE_DCGM_VERSION(dcgmHealthResponse_v5, 5)

dcgmHealthResponse_v5 的版本 5。

dcgmHealthResponse_version dcgmHealthResponse_version5

dcgmHealthResponse_t 的最新版本。

dcgmHealthSetParams_version2 MAKE_DCGM_VERSION(dcgmHealthSetParams_v2, 2)

dcgmHealthSet_v2 的版本 2。

DCGM_MAX_PID_INFO_NUM 16
dcgmPidInfo_version2 MAKE_DCGM_VERSION(dcgmPidInfo_v2, 2)

dcgmPidInfo_v2 的版本 2。

dcgmPidInfo_version dcgmPidInfo_version2

dcgmPidInfo_t 的最新版本。

dcgmJobInfo_version3 MAKE_DCGM_VERSION(dcgmJobInfo_v3, 3)

dcgmJobInfo_v3 的版本 3。

dcgmJobInfo_version dcgmJobInfo_version3

dcgmJobInfo_t 的最新版本。

dcgmRunningProcess_version1 MAKE_DCGM_VERSION(dcgmRunningProcess_v1, 1)

dcgmRunningProcess_v1 的版本 1。

dcgmRunningProcess_version dcgmRunningProcess_version1

dcgmRunningProcess_t 的最新版本。

DCGM_MAX_ERRORS 5
DCGM_SM_PERF_INDEX DCGM_SM_STRESS_INDEX
DCGM_TARGETED_PERF_INDEX DCGM_TARGETED_PERF_INDEX
DCGM_PER_GPU_TEST_COUNT_V8 13
DCGM_PER_GPU_TEST_COUNT_V7 9
DCGM_SWTEST_COUNT 11
LEVEL_ONE_MAX_RESULTS 16
DCGM_DIAG_RESPONSE_TESTS_MAX 20

可以返回结果的插件的最大数量。

DCGM_DIAG_RESPONSE_SYSTEM_ERROR DCGM_INT8_BLANK

用于将错误标记为系统错误。

DCGM_DIAG_RESPONSE_ERRORS_MAX DCGM_DIAG_TEST_RUN_ERROR_INDICES_MAX

可以报告的最大错误数。

这必须与 DCGM_DIAG_PLUGINRUN_ERROR_INDICES_MAX 匹配。

DCGM_DIAG_RESPONSE_INFO_MAX DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX

可以报告的最大信息消息数。

这必须与 DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX 匹配。

DCGM_DIAG_RESPONSE_ENTITIES_MAX DCGM_GROUP_MAX_ENTITIES_V2

可以报告的最大实体数。

DCGM_DIAG_RESPONSE_RESULTS_MAX     (DCGM_DIAG_RESPONSE_TESTS_MAX

\

*

DCGM_DIAG_RESPONSE_ENTITIES_MAX)

可以报告的最大结果数。

DCGM_DIAG_RESPONSE_CATEGORIES_MAX 5

部署 | 硬件 | 集成 | 压力 测试之一。

DCGM_DIAG_RESPONSE_CATEGORY_LEN 20

每个类别的字节数(包括 ‘\0’)。

DCGM_DIAG_RESPONSE_V11_UNUSED_LEN     682880

diagResponse_v11 中未使用的字节,用于与 v10 及更早版本兼容。

dcgmDiagResponse_version11 MAKE_DCGM_VERSION(dcgmDiagResponse_v11, 11)

dcgmDiagResponse_v11 的版本 11。

dcgmDiagResponse_version10 MAKE_DCGM_VERSION(dcgmDiagResponse_v10, 10)

dcgmDiagResponse_v11 的版本 10。

dcgmDiagResponse_version9 MAKE_DCGM_VERSION(dcgmDiagResponse_v9, 9)

dcgmDiagResponse_v9 的版本 9。

dcgmDiagResponse_version8 MAKE_DCGM_VERSION(dcgmDiagResponse_v8, 8)

dcgmDiagResponse_v8 的版本 8。

dcgmDiagResponse_version7 MAKE_DCGM_VERSION(dcgmDiagResponse_v7, 7)

dcgmDiagResponse_v7 的版本 7。

dcgmDiagResponse_version dcgmDiagResponse_version11

dcgmDiagResponse_t 的最新版本。

dcgmDiagStatus_version1 MAKE_DCGM_VERSION(dcgmDiagStatus_v1, 1)

dcgmDiagStatus_v1 的版本 1。

dcgmDiagStatus_version dcgmDiagStatus_version1

dcgmDiagStatus_t 的最新版本。

DCGM_TOPOLOGY_PATH_PCI(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFF)
DCGM_AFFINITY_BITMASK_ARRAY_SIZE 8
dcgmDeviceTopology_version1 MAKE_DCGM_VERSION(dcgmDeviceTopology_v1, 1)

dcgmDeviceTopology_v1 的版本 1。

dcgmDeviceTopology_version dcgmDeviceTopology_version1

dcgmDeviceTopology_t 的最新版本。

dcgmGroupTopology_version1 MAKE_DCGM_VERSION(dcgmGroupTopology_v1, 1)

dcgmGroupTopology_v1 的版本 1。

dcgmGroupTopology_version dcgmGroupTopology_version1

dcgmGroupTopology_t 的最新版本。

dcgmIntrospectMemory_version1 MAKE_DCGM_VERSION(dcgmIntrospectMemory_v1, 1)

dcgmIntrospectMemory_t 的版本 1。

dcgmIntrospectMemory_version dcgmIntrospectMemory_version1

dcgmIntrospectMemory_t 的最新版本。

dcgmIntrospectCpuUtil_version1 MAKE_DCGM_VERSION(dcgmIntrospectCpuUtil_v1, 1)

dcgmIntrospectCpuUtil_t 的版本 1。

dcgmIntrospectCpuUtil_version dcgmIntrospectCpuUtil_version1

dcgmIntrospectCpuUtil_t 的最新版本。

DCGM_MAX_CONFIG_FILE_LEN 10000
DCGM_MAX_TEST_NAMES 20
DCGM_MAX_TEST_NAMES_LEN 50
DCGM_MAX_TEST_PARMS 100
DCGM_MAX_TEST_PARMS_LEN 100
DCGM_MAX_TEST_PARMS_LEN_V2 1050
DCGM_GPU_LIST_LEN 50
DCGM_ENTITY_ID_LIST_LEN 2048
DCGM_EXPECTED_ENTITIES_LEN 50
DCGM_FILE_LEN 30
DCGM_PATH_LEN 128
DCGM_CLOCKS_EVENT_MASK_LEN 50
DCGM_IGNORE_ERROR_MAX_LEN 512
DCGM_THROTTLE_MASK_LEN DCGM_CLOCKS_EVENT_MASK_LEN
dcgmRunDiag_version7 MAKE_DCGM_VERSION(dcgmRunDiag_v7, 7)

dcgmRunDiag_t 的版本 7。

dcgmRunDiag_version8 MAKE_DCGM_VERSION(dcgmRunDiag_v8, 8)

dcgmRunDiag_t 的版本 8。

dcgmRunDiag_version9 MAKE_DCGM_VERSION(dcgmRunDiag_v9, 9)

dcgmRunDiag_t 的版本 9。

dcgmRunDiag_version10 MAKE_DCGM_VERSION(dcgmRunDiag_v10, 10)

dcgmRunDiag_t 的版本 10。

DCGM_GEGE_FLAG_ONLY_SUPPORTED 0x00000001

dcgmGetEntityGroupEntities 的 flags 参数的标志。

仅返回 DCGM 支持的实体。 这模仿 dcgmGetAllSupportedDevices() 的行为。

dcgmTopoSchedHint_version1 MAKE_DCGM_VERSION(dcgmTopoSchedHint_v1, 1)
dcgmNvLinkStatus_version4 MAKE_DCGM_VERSION(dcgmNvLinkStatus_v4, 4)

dcgmNvLinkStatus 的版本 4。

DCGM_SUMMARY_MIN 0x00000001
DCGM_SUMMARY_MAX 0x00000002
DCGM_SUMMARY_AVG 0x00000004
DCGM_SUMMARY_SUM 0x00000008
DCGM_SUMMARY_COUNT 0x00000010
DCGM_SUMMARY_INTEGRAL 0x00000020
DCGM_SUMMARY_DIFF 0x00000040
DCGM_SUMMARY_SIZE 7
dcgmFieldSummaryRequest_version1 MAKE_DCGM_VERSION(dcgmFieldSummaryRequest_v1, 1)
DCGM_MODULE_STATUSES_CAPACITY 16
dcgmModuleGetStatuses_version1 MAKE_DCGM_VERSION(dcgmModuleGetStatuses_v1, 1)

dcgmModuleGetStatuses 的版本 1。

dcgmModuleGetStatuses_version dcgmModuleGetStatuses_version1
dcgmStartEmbeddedV2Params_version1 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v1, 1)

Version 1 for dcgmStartEmbeddedV2Params_v1.

dcgmStartEmbeddedV2Params_version2 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v2, 2)

Version 2 for dcgmStartEmbeddedV2Params.

DCGM_PROF_MAX_NUM_GROUPS_V2 10

Maximum number of metric ID groups that can exist in DCGM.

DCGM_PROF_MAX_FIELD_IDS_PER_GROUP_V2 64

Maximum number of field IDs that can be in a single DCGM profiling metric group.

dcgmProfGetMetricGroups_version3 MAKE_DCGM_VERSION(dcgmProfGetMetricGroups_v3, 3)

Version 3 of dcgmProfGetMetricGroups_t.

Older versions are unsupported

dcgmProfGetMetricGroups_version dcgmProfGetMetricGroups_version3
dcgmSettingsSetLoggingSeverity_version1 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v1, 1)
dcgmSettingsSetLoggingSeverity_version2 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v2, 2)
dcgmSettingsSetLoggingSeverity_version dcgmSettingsSetLoggingSeverity_version2
dcgmVersionInfo_version2 MAKE_DCGM_VERSION(dcgmVersionInfo_v2, 2)

Version 2 of the dcgmVersionInfo_v2.

dcgmVersionInfo_version dcgmVersionInfo_version2

类型定义

typedef uintptr_t dcgmHandle_t

DCGM 句柄的标识符。

typedef uintptr_t dcgmGpuGrp_t

GPU 组的标识符。一个组可以包含一个或多个 GPU。

typedef uintptr_t dcgmFieldGrp_t

字段组的标识符。

typedef uintptr_t dcgmStatus_t

状态代码列表的标识符。

表示链接对象。

类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一;gpuId 或 switchID 是关联的 gpu 或交换机;index 是链接索引,从 0 开始,TX(偶数)在前,RX(奇数)在后。

typedef dcgmConnectV2Params_v2 dcgmConnectV2Params_t

dcgmConnectV2Params_v2 的类型定义。

typedef dcgmHostengineHealth_v1 dcgmHostengineHealth_t

dcgmHostengineHealth_t 的类型定义。

typedef dcgmGroupInfo_v3 dcgmGroupInfo_t

dcgmGroupInfo_v3 的类型定义。

typedef dcgmCpuHierarchyOwnedCores_v1 dcgmCpuHierarchyOwnedCores_t
typedef dcgmCpuHierarchy_v2 dcgmCpuHierarchy_t
typedef dcgmFieldGroupInfo_v1 dcgmFieldGroupInfo_t
typedef dcgmAllFieldGroup_v1 dcgmAllFieldGroup_t
typedef dcgmClockSet_v1 dcgmClockSet_t

dcgmClockSet_v1 的类型定义。

typedef dcgmDeviceSupportedClockSets_v1 dcgmDeviceSupportedClockSets_t

dcgmDeviceSupportedClockSets_v1 的类型定义。

typedef dcgmDevicePidAccountingStats_v1 dcgmDevicePidAccountingStats_t

dcgmDevicePidAccountingStats_v1 的类型定义。

typedef dcgmDeviceThermals_v1 dcgmDeviceThermals_t

dcgmDeviceThermals_v1 的类型定义。

typedef dcgmDevicePowerLimits_v1 dcgmDevicePowerLimits_t

dcgmDevicePowerLimits_v1 的类型定义。

typedef dcgmDeviceIdentifiers_v1 dcgmDeviceIdentifiers_t

dcgmDeviceIdentifiers_v1 的类型定义。

typedef dcgmDeviceMemoryUsage_v1 dcgmDeviceMemoryUsage_t

dcgmDeviceMemoryUsage_v1 的类型定义。

typedef dcgmDeviceVgpuUtilInfo_v1 dcgmDeviceVgpuUtilInfo_t

dcgmDeviceVgpuUtilInfo_v1 的类型定义。

typedef dcgmDeviceEncStats_v1 dcgmDeviceEncStats_t

dcgmDeviceEncStats_v1 的类型定义。

typedef dcgmDeviceFbcStats_v1 dcgmDeviceFbcStats_t

dcgmDeviceFbcStats_v1 的类型定义。

typedef enum dcgmFBCSessionType_enum dcgmFBCSessionType_t
typedef dcgmDeviceFbcSessionInfo_v1 dcgmDeviceFbcSessionInfo_t

dcgmDeviceFbcSessionInfo_v1 的类型定义。

typedef dcgmDeviceFbcSessions_v1 dcgmDeviceFbcSessions_t

dcgmDeviceFbcSessions_v1 的类型定义。

typedef enum dcgmEncoderQueryType_enum dcgmEncoderType_t
typedef dcgmDeviceVgpuEncSessions_v1 dcgmDeviceVgpuEncSessions_t

dcgmDeviceVgpuEncSessions_v1 的类型定义。

typedef dcgmDeviceVgpuProcessUtilInfo_v1 dcgmDeviceVgpuProcessUtilInfo_t

dcgmDeviceVgpuProcessUtilInfo_v1 的类型定义。

typedef dcgmDeviceVgpuTypeInfo_v2 dcgmDeviceVgpuTypeInfo_t

dcgmDeviceVgpuTypeInfo_v2 的类型定义。

typedef dcgmDeviceSupportedVgpuTypeInfo_v1 dcgmDeviceSupportedVgpuTypeInfo_t

dcgmDeviceSupportedVgpuTypeInfo_v1 的类型定义。

typedef dcgmDeviceSettings_v2 dcgmDeviceSettings_t
typedef dcgmDeviceAttributes_v3 dcgmDeviceAttributes_t

dcgmDeviceAttributes_v3 的类型定义。

typedef dcgmDeviceMigAttributesInfo_v1 dcgmDeviceMigAttributesInfo_t

dcgmDeviceMigAttributesInfo_v1 的类型定义。

typedef dcgmDeviceMigAttributes_v1 dcgmDeviceMigAttributes_t

dcgmDeviceMigAttributes_v1 的类型定义。

typedef dcgmGpuInstanceProfileInfo_v1 dcgmGpuInstanceProfileInfo_t

dcgmGpuInstanceProfileInfo_v1 的类型定义。

typedef dcgmGpuInstanceProfiles_v1 dcgmGpuInstanceProfiles_t

dcgmGpuInstanceProfiles_v1 的类型定义。

typedef dcgmComputeInstanceProfileInfo_v1 dcgmComputeInstanceProfileInfo_t

dcgmComputeInstanceProfileInfo_v1 的类型定义。

typedef dcgmComputeInstanceProfiles_v1 dcgmComputeInstanceProfiles_t

dcgmComputeInstanceProfiles_v1 的类型定义。

typedef dcgmWorkloadPowerProfileInfo_v1 dcgmWorkloadPowerProfileInfo_t
typedef dcgmWorkloadPowerProfileProfilesInfo_v1 dcgmWorkloadPowerProfileProfilesInfo_t
typedef dcgmDeviceWorkloadPowerProfilesStatus_v1 dcgmDeviceWorkloadPowerProfilesStatus_t
typedef dcgmConfig_v2 dcgmConfig_t

dcgmConfig_v1 的类型定义。

typedef dcgmPolicyViolation_v1 dcgmPolicyViolation_t
typedef enum dcgmPolicyConditionIdx_enum dcgmPolicyConditionIdx_t

策略条件的枚举。

当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值

typedef enum dcgmPolicyCondition_enum dcgmPolicyCondition_t

策略条件的位掩码枚举。

当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值

typedef struct dcgmPolicyConditionParams_st dcgmPolicyConditionParams_t

策略条件参数的结构体。

此结构体包含一个标签,表示传递的值的类型,以及一个 “val”,它是可能值类型的联合。例如,要传递一个真布尔值:tag = BOOL,val.boolean = 1。

typedef enum dcgmPolicyMode_enum dcgmPolicyMode_t

策略模式的枚举。

typedef enum dcgmPolicyIsolation_enum dcgmPolicyIsolation_t

策略隔离模式的枚举。

typedef enum dcgmPolicyAction_enum dcgmPolicyAction_t

策略动作的枚举。

typedef enum dcgmPolicyValidation_enum dcgmPolicyValidation_t

策略验证动作的枚举。

typedef enum dcgmPolicyFailureResp_enum dcgmPolicyFailureResp_t

策略失败响应的枚举。

typedef dcgmPolicy_v1 dcgmPolicy_t

dcgmPolicy_v1 的类型定义。

typedef dcgmPolicyCallbackResponse_v2 dcgmPolicyCallbackResponse_t

dcgmPolicyCallbackResponse_v2 的类型定义。

typedef int (*fpRecvUpdates)(dcgmPolicyCallbackResponse_t *response, uint64_t userData)

表示用于接收来自异步函数更新的回调函数。

当前唯一实现的回调函数是 dcgmPolicyRegister_v2。

typedef int (*dcgmFieldValueEnumeration_f)(unsigned int gpuId, dcgmFieldValue_v1 *values, int numValues, void *userData)

用于处理一个或多个字段更新的用户回调函数。

此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改

Param gpuId:

IN: 此字段值集所属的 GPU 的 GPU ID

Param values:

IN: 字段值。这些值必须被复制,因为它们将在本次调用返回后立即销毁。

Param numValues:

IN: values[] 中有效的条目数

Param userData:

IN: 传递给生成此回调的更新函数的用户数据指针

Return:

如果 OK 返回 0,如果枚举应停止则返回 <0。这允许被调用者中止字段值枚举。

typedef int (*dcgmFieldValueEntityEnumeration_f)(dcgm_field_entity_group_t entityGroupId, dcgm_field_eid_t entityId,dcgmFieldValue_v1 *values, int numValues, void *userData)

用于处理一个或多个字段更新的用户回调函数。

此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改

Param entityGroupId:

IN: 此字段值集所属实体的 entityGroup

Param entityId:

IN: 此字段值集所属的实体

Param values:

IN: 字段值。这些值必须被复制,因为它们将在本次调用返回后立即销毁。

Param numValues:

IN: values[] 中有效的条目数

Param userData:

IN: 传递给生成此回调的更新函数的用户数据指针

Return:

如果 OK 返回 0,如果枚举应停止则返回 <0。这允许被调用者中止字段值枚举。

typedef enum dcgmHealthSystems_enum dcgmHealthSystems_t

用于启用或禁用健康监控系统的系统结构。

typedef enum dcgmHealthWatchResult_enum dcgmHealthWatchResults_t

健康监控测试结果。

typedef enum dcgmDiagResult_enum dcgmDiagResult_t

诊断测试结果。

typedef dcgmHealthResponse_v5 dcgmHealthResponse_t

dcgmHealthResponse_v5 的类型定义。

typedef dcgmPidInfo_v2 dcgmPidInfo_t

dcgmPidInfo_v2 的类型定义。

typedef dcgmJobInfo_v3 dcgmJobInfo_t

dcgmJobInfo_v3 的类型定义。

typedef dcgmRunningProcess_v1 dcgmRunningProcess_t

dcgmRunningProcess_v1 的类型定义。

typedef enum dcgmPerGpuTestIndices_enum dcgmPerGpuTestIndices_t

每个 GPU 诊断测试 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。

typedef enum dcgmSoftwareTest_enum dcgmSoftwareTest_t
typedef dcgmDiagResponse_v11 dcgmDiagResponse_t

dcgmDiagResponse_v11 的类型定义。

typedef dcgmDiagStatus_v1 dcgmDiagStatus_t
typedef enum dcgmGpuLevel_enum dcgmGpuTopologyLevel_t

表示系统中两个 GPU 之间的级别关系。枚举值之间留有间隔,以便将来扩展关系。

这些值与 nvml.h 中的定义匹配

typedef dcgmDeviceTopology_v1 dcgmDeviceTopology_t

dcgmDeviceTopology_v1 的类型定义。

typedef dcgmGroupTopology_v1 dcgmGroupTopology_t

dcgmGroupTopology_v1 的类型定义。

typedef dcgmIntrospectMemory_v1 dcgmIntrospectMemory_t

dcgmIntrospectMemory_t 的类型定义。

typedef dcgmIntrospectCpuUtil_v1 dcgmIntrospectCpuUtil_t

dcgmIntrospectCpuUtil_t 的类型定义。

typedef enum dcgmGpuNVLinkErrorType_enum dcgmGpuNVLinkErrorType_t

标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。

typedef dcgmTopoSchedHint_v1 dcgmTopoSchedHint_t
typedef enum dcgmNvLinkLinkState_enum dcgmNvLinkLinkState_t

NvLink 链路状态。

typedef dcgmNvLinkStatus_v4 dcgmNvLinkStatus_t
typedef dcgmFieldSummaryRequest_v1 dcgmFieldSummaryRequest_t
typedef dcgmModuleGetStatuses_v1 dcgmModuleGetStatuses_t
typedef dcgmProfGetMetricGroups_v3 dcgmProfGetMetricGroups_t
typedef dcgmSettingsSetLoggingSeverity_v2 dcgmSettingsSetLoggingSeverity_t
typedef dcgmVersionInfo_v2 dcgmVersionInfo_t

枚举

enum DcgmLoggingSeverity_t

DCGM 日志记录严重级别。

这些级别与 Severity.h 中定义的 plog 严重级别相匹配。每个级别都包括其上的所有级别。例如,级别 4 也包括 3、2 和 1

enumerator DcgmLoggingSeverityUnspecified

不在意/从环境继承

enumerator DcgmLoggingSeverityNone

不记录日志

enumerator DcgmLoggingSeverityFatal

致命错误

enumerator DcgmLoggingSeverityError

错误

enumerator DcgmLoggingSeverityWarning

警告

enumerator DcgmLoggingSeverityInfo

信息性

enumerator DcgmLoggingSeverityDebug

调试信息(会生成大量日志)

enumerator DcgmLoggingSeverityVerbose

详细调试信息

enum dcgmMigProfile_t

用于不同类型 MIG 配置文件的枚举。

enumerator DcgmMigProfileNone

无配置文件(用于 GPU)

enumerator DcgmMigProfileGpuInstanceSlice1

GPU 实例切片 1

enumerator DcgmMigProfileGpuInstanceSlice2

GPU 实例切片 2

enumerator DcgmMigProfileGpuInstanceSlice3

GPU 实例切片 3

enumerator DcgmMigProfileGpuInstanceSlice4

GPU 实例切片 4

enumerator DcgmMigProfileGpuInstanceSlice7

GPU 实例切片 7

enumerator DcgmMigProfileGpuInstanceSlice8

GPU 实例切片 8

enumerator DcgmMigProfileGpuInstanceSlice6

GPU 实例切片 6

enumerator DcgmMigProfileGpuInstanceSlice1Rev1

GPU 实例切片 1 修订版 1

enumerator DcgmMigProfileGpuInstanceSlice2Rev1

GPU 实例切片 2 修订版 1

enumerator DcgmMigProfileGpuInstanceSlice1Rev2

GPU 实例切片 1 修订版 2

enumerator DcgmMigProfileGpuInstanceSlice1GFX

GPU 实例切片 1 GFX

enumerator DcgmMigProfileGpuInstanceSlice2GFX

GPU 实例切片 2 GFX

enumerator DcgmMigProfileGpuInstanceSlice4GFX

GPU 实例切片 4 GFX

enumerator DcgmMigProfileComputeInstanceSlice1

计算实例切片 1

enumerator DcgmMigProfileComputeInstanceSlice2

计算实例切片 2

enumerator DcgmMigProfileComputeInstanceSlice3

计算实例切片 3

enumerator DcgmMigProfileComputeInstanceSlice4

计算实例切片 4

enumerator DcgmMigProfileComputeInstanceSlice7

计算实例切片 7

enumerator DcgmMigProfileComputeInstanceSlice8

计算实例切片 8

enumerator DcgmMigProfileComputeInstanceSlice6

计算实例切片 6

enumerator DcgmMigProfileComputeInstanceSlice1Rev1

计算实例切片 1 修订版 1

enum dcgmFBCSessionType_enum

enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN

未知。

enumerator DCGM_FBC_SESSION_TYPE_TOSYS

用于系统缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_CUDA

用于 CUDA 缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_VID

用于 Vid 缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_HWENC

用于 NVENC HW 缓冲区的 FB 捕获。

enum dcgmEncoderQueryType_enum

enumerator DCGM_ENCODER_QUERY_H264
enumerator DCGM_ENCODER_QUERY_HEVC
enum dcgmPowerProfileType_t

enumerator DCGM_POWER_PROFILE_MAX_P
enumerator DCGM_POWER_PROFILE_MAX_Q
enumerator DCGM_POWER_PROFILE_COMPUTE
enumerator DCGM_POWER_PROFILE_MEMORY_BOUND
enumerator DCGM_POWER_PROFILE_NETWORK
enumerator DCGM_POWER_PROFILE_BALANCED
enumerator DCGM_POWER_PROFILE_LLM_INFERENCE
enumerator DCGM_POWER_PROFILE_LLM_TRAINING
enumerator DCGM_POWER_PROFILE_RBM
enumerator DCGM_POWER_PROFILE_DCPCIE
enumerator DCGM_POWER_PROFILE_HMMA_SPARSE
enumerator DCGM_POWER_PROFILE_HMMA_DENSE
enumerator DCGM_POWER_PROFILE_SYNC_BALANCED
enumerator DCGM_POWER_PROFILE_HPC
enumerator DCGM_POWER_PROFILE_MIG
enumerator DCGM_POWER_PROFILE_MAX
enum dcgmPolicyConditionIdx_enum

策略条件的枚举。

当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值

enumerator DCGM_POLICY_COND_IDX_DBE

双位错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_PCI

PCI 事件/错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_MAX_PAGES_RETIRED

最大退休页数 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_IDX_THERMAL

热违规 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_IDX_POWER

电源违规 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_IDX_NVLINK

NVLINK 错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_XID

XID 错误 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enum dcgmPolicyCondition_enum

策略条件的位掩码枚举。

当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值

enumerator DCGM_POLICY_COND_DBE

双位错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_PCI

PCI 事件/错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_MAX_PAGES_RETIRED

最大退休页数 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_THERMAL

热违规 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_POWER

电源违规 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enumerator DCGM_POLICY_COND_NVLINK

NVLINK 错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_XID

XID 错误 &#8212; dcgmPolicyConditionParams_t 中所需的数字。

enum dcgmPolicyMode_enum

策略模式的枚举。

enumerator DCGM_POLICY_MODE_AUTOMATED

自动模式

enumerator DCGM_POLICY_MODE_MANUAL

手动模式

enum dcgmPolicyIsolation_enum

策略隔离模式的枚举。

enumerator DCGM_POLICY_ISOLATION_NONE

错误时不对 GPU 进行隔离

enum dcgmPolicyAction_enum

策略动作的枚举。

enumerator DCGM_POLICY_ACTION_NONE

无操作

enumerator DCGM_POLICY_ACTION_GPURESET

已弃用 - 违规时执行 GPU 重置。

enum dcgmPolicyValidation_enum

策略验证动作的枚举。

enumerator DCGM_POLICY_VALID_NONE

执行操作后不进行验证

enumerator DCGM_POLICY_VALID_SV_SHORT

失败后在系统上运行简短的系统验证

enumerator DCGM_POLICY_VALID_SV_MED

失败后运行中等系统验证测试

enumerator DCGM_POLICY_VALID_SV_LONG

失败后运行全面的系统验证测试

enumerator DCGM_POLICY_VALID_SV_XLONG

失败后运行更全面的系统验证测试

enum dcgmPolicyFailureResp_enum

策略失败响应的枚举。

enumerator DCGM_POLICY_FAILURE_NONE

验证失败时不执行任何操作

enum dcgmHealthSystems_enum

用于启用或禁用健康监控系统的系统结构。

enumerator DCGM_HEALTH_WATCH_PCIE

PCIe 系统监视(查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_NVLINK

NVLINK 系统监视。

enumerator DCGM_HEALTH_WATCH_PMU

电源管理单元监视。

enumerator DCGM_HEALTH_WATCH_MCU

微控制器单元监视。

enumerator DCGM_HEALTH_WATCH_MEM

内存监视。

enumerator DCGM_HEALTH_WATCH_SM

流式多处理器监视。

enumerator DCGM_HEALTH_WATCH_INFOROM

Inforom 监视。

enumerator DCGM_HEALTH_WATCH_THERMAL

温度监视(查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_POWER

功耗监视(查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_DRIVER

驱动程序相关监视。

enumerator DCGM_HEALTH_WATCH_NVSWITCH_NONFATAL

NvSwitch 中的非致命错误。

enumerator DCGM_HEALTH_WATCH_NVSWITCH_FATAL

NvSwitch 中的致命错误。

enumerator DCGM_HEALTH_WATCH_ALL

启用所有监视。

enum dcgmHealthWatchResult_enum

健康监控测试结果。

enumerator DCGM_HEALTH_RESULT_PASS

此系统中的所有结果均报告正常。

enumerator DCGM_HEALTH_RESULT_WARN

已发出警告,请参阅响应以获取更多信息。

enumerator DCGM_HEALTH_RESULT_FAIL

已发出故障,请参阅响应以获取更多信息。

enum dcgmDiagResult_enum

诊断测试结果。

enumerator DCGM_DIAG_RESULT_PASS

此测试作为诊断通过。

enumerator DCGM_DIAG_RESULT_SKIP

此测试已跳过。

enumerator DCGM_DIAG_RESULT_WARN

此测试通过,但有警告。

enumerator DCGM_DIAG_RESULT_FAIL

此测试诊断失败。

enumerator DCGM_DIAG_RESULT_NOT_RUN

此测试未执行。

enum dcgmDiagnosticLevel_t

诊断级别枚举。

enumerator DCGM_DIAG_LVL_INVALID

未初始化。

enumerator DCGM_DIAG_LVL_SHORT

在系统上运行非常基础的健康检查

enumerator DCGM_DIAG_LVL_MED

运行中等时长的诊断(几分钟)

enumerator DCGM_DIAG_LVL_LONG

运行全面的诊断(几分钟)

enumerator DCGM_DIAG_LVL_XLONG

运行非常全面的诊断(多分钟)

enum dcgmPerGpuTestIndices_enum

每个 GPU 诊断测试 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。

enumerator DCGM_MEMORY_INDEX

内存测试索引。

enumerator DCGM_DIAGNOSTIC_INDEX

诊断测试索引。

enumerator DCGM_PCI_INDEX

PCIe 测试索引。

enumerator DCGM_SM_STRESS_INDEX

SM 压力测试索引。

enumerator DCGM_TARGETED_STRESS_INDEX

定向压力测试索引。

enumerator DCGM_TARGETED_POWER_INDEX

定向功耗测试索引。

enumerator DCGM_MEMORY_BANDWIDTH_INDEX

内存带宽测试索引。

enumerator DCGM_MEMTEST_INDEX

Memtest 测试索引。

enumerator DCGM_PULSE_TEST_INDEX

脉冲测试索引。

enumerator DCGM_EUD_TEST_INDEX

EUD 测试索引。

enumerator DCGM_NVBANDWIDTH_INDEX

NVBandwidth 索引。

enumerator DCGM_UNUSED2_TEST_INDEX
enumerator DCGM_UNUSED3_TEST_INDEX
enumerator DCGM_UNUSED4_TEST_INDEX
enumerator DCGM_UNUSED5_TEST_INDEX
enumerator DCGM_SOFTWARE_INDEX

软件测试索引。

enumerator DCGM_CONTEXT_CREATE_INDEX

上下文创建测试索引。

enumerator DCGM_UNKNOWN_INDEX

未知测试。

enum dcgmSoftwareTest_enum

enumerator DCGM_SWTEST_DENYLIST

测试驱动程序是否在拒绝列表中(例如 nouveau)

enumerator DCGM_SWTEST_NVML_LIBRARY

测试 NVML 库是否存在(以及版本)

enumerator DCGM_SWTEST_CUDA_MAIN_LIBRARY

测试 CUDA 库是否存在(以及版本)

enumerator DCGM_SWTEST_CUDA_RUNTIME_LIBRARY

测试 CUDA RT 库是否存在(以及版本)

enumerator DCGM_SWTEST_PERMISSIONS

测试字符设备权限

enumerator DCGM_SWTEST_PERSISTENCE_MODE

测试是否启用持久模式

enumerator DCGM_SWTEST_ENVIRONMENT

测试可能减慢测试速度的 CUDA 环境变量

enumerator DCGM_SWTEST_PAGE_RETIREMENT

测试是否有待处理的帧缓冲区页面停用

enumerator DCGM_SWTEST_GRAPHICS_PROCESSES

测试图形进程是否正在运行

enumerator DCGM_SWTEST_INFOROM

测试 inforom 是否损坏

enumerator DCGM_SWTEST_FABRIC_MANAGER

测试 Fabric Manager 是否正在运行

enum dcgmGpuLevel_enum

表示系统中两个 GPU 之间的级别关系。枚举值之间留有间隔,以便将来扩展关系。

这些值与 nvml.h 中的定义匹配

enumerator DCGM_TOPOLOGY_UNINITIALIZED
enumerator DCGM_TOPOLOGY_BOARD

多 GPU 板卡

enumerator DCGM_TOPOLOGY_SINGLE

所有仅需遍历单个 PCIe 交换机的设备

enumerator DCGM_TOPOLOGY_MULTIPLE

所有无需遍历主机桥的设备

enumerator DCGM_TOPOLOGY_HOSTBRIDGE

所有连接到同一主机桥的设备

enumerator DCGM_TOPOLOGY_CPU

所有连接到同一 CPU 但可能连接到多个主机桥的设备

enumerator DCGM_TOPOLOGY_SYSTEM

系统中的所有设备

enumerator DCGM_TOPOLOGY_NVLINK1

通过单个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK2

通过两个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK3

通过三个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK4

通过四个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK5

通过五个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK6

通过六个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK7

通过七个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK8

通过八个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK9

通过九个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK10

通过十个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK11

通过十一个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK12

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK13

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK14

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK15

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK16

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK17

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK18

通过十二个 NVLINK 链路连接的 GPU。

enum dcgmGpuNVLinkErrorType_enum

标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。

发生 NVLink 链路恢复错误。

发生 NVLink 链路致命错误。

enum dcgmNvLinkLinkState_enum

NvLink 链路状态。

enumerator DcgmNvLinkLinkStateNotSupported

此 GPU 不支持 NvLink (GPU 的默认状态)

enumerator DcgmNvLinkLinkStateDisabled

此链路支持 NvLink,但此链路已禁用 (NvSwitch 的默认状态)

enumerator DcgmNvLinkLinkStateDown

此 NvLink 链路已关闭 (非活动)

enumerator DcgmNvLinkLinkStateUp

此 NvLink 链路已开启 (活动)

enum dcgmModuleId_t

模块 ID。

enumerator DcgmModuleIdCore

核心 DCGM - 始终加载。

enumerator DcgmModuleIdNvSwitch

NvSwitch 模块。

enumerator DcgmModuleIdVGPU

VGPU 模块。

enumerator DcgmModuleIdIntrospect

自检模块。

enumerator DcgmModuleIdHealth

健康模块。

enumerator DcgmModuleIdPolicy

策略模块。

enumerator DcgmModuleIdConfig

配置模块。

enumerator DcgmModuleIdDiag

GPU 诊断模块。

enumerator DcgmModuleIdProfiling

性能分析模块。

enumerator DcgmModuleIdSysmon

系统监控模块。

enumerator DcgmModuleIdCount

始终是最后一个。比上面的最大值大 1。

enum dcgmModuleStatus_t

模块状态。

模块是延迟加载的,因此在被使用之前,它们将处于 DcgmModuleStatusNotLoaded 状态。一旦模块被使用,它们将移动到另一种状态。

enumerator DcgmModuleStatusNotLoaded

模块尚未加载。

enumerator DcgmModuleStatusDenylisted

模块在拒绝列表中;无法加载。

enumerator DcgmModuleStatusFailed

加载模块失败。

enumerator DcgmModuleStatusLoaded

模块已加载。

enumerator DcgmModuleStatusUnloaded

模块已卸载,发生在关闭期间。

enumerator DcgmModuleStatusPaused

模块已暂停。这是一种临时状态,一旦模块恢复,将变为 DcgmModuleStatusLoaded。此状态表示模块已加载。

enum dcgmFabricManagerStatus_t

enumerator DcgmFMStatusNotSupported

此 GPU 不支持 Fabric Manager。

enumerator DcgmFMStatusNotStarted

此 GPU 的 Fabric Manager 尚未启动。

enumerator DcgmFMStatusInProgress

Fabric Manager 仍在启动中。

enumerator DcgmFMStatusSuccess

Fabric Manager 已成功启动。

enumerator DcgmFMStatusFailure

Fabric Manager 完成训练,但失败。

enumerator DcgmFMStatusUnrecognized

NVML 为 fabric manager 返回了无法识别的状态。

enumerator DcgmFMStatusNvmlTooOld

查询 fabric manager 状态时,NVML 返回了 NVML_ERROR_FUNCTION_NOT_FOUND。

enumerator DcgmFMStatusCount

有效状态的计数,始终比最后一个状态多 1。

#include <dcgm_structs.h>

表示链接对象。

类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一;gpuId 或 switchID 是关联的 gpu 或交换机;index 是链接索引,从 0 开始,TX(偶数)在前,RX(奇数)在后。

公共成员

实体组

链路索引,先 Tx 后 Rx

物理 GPU ID

物理交换机 ID

分解的链路标识符 GPU/SW:[GPU|SW]:Index

原始链路 ID

struct dcgmConnectV2Params_v1
#include <dcgm_structs.h>

dcgmConnect_v2 的连接选项 (v1)

注意:此版本已弃用。请使用 dcgmConnectV2Params_v2

公共成员

unsigned int version

版本号。使用 dcgmConnectV2Params_version

unsigned int persistAfterDisconnect

连接终止后,是否持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由此连接创建的所有字段监视都会被删除。1 = 不在此连接后清理。0 = 在此连接后清理

struct dcgmConnectV2Params_v2
#include <dcgm_structs.h>

dcgmConnect_v2 的连接选项 (v2)

公共成员

unsigned int version

版本号。使用 dcgmConnectV2Params_version

unsigned int persistAfterDisconnect

连接终止后,是否持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由此连接创建的所有字段监视都会被删除。1 = 不在此连接后清理。0 = 在此连接后清理

unsigned int timeoutMs

尝试连接到指定的主机引擎时,在放弃之前应等待多少毫秒

unsigned int addressIsUnixSocket

传入的地址是 Unix 套接字文件名 (1) 还是 TCP/IP 地址 (0)

struct dcgmHostengineHealth_v1
#include <dcgm_structs.h>

dcgmHostengineHealth_v1 的类型定义。

公共成员

unsigned int version

此请求的版本。

unsigned int overallHealth

0 表示健康,或一个代码表示错误

struct dcgmGroupEntityPair_t
#include <dcgm_structs.h>

表示 entityGroupId + entityId 对,以唯一标识实体组内的给定 entityId。

在 DCGM 1.5.0 中添加

公共成员

dcgm_field_entity_group_t entityGroupId

实体所属的实体组 ID。

dcgm_field_eid_t entityId

实体的实体 ID。

struct dcgmGroupInfo_v2
#include <dcgm_structs.h>

用于存储 DCGM 组信息的结构体。

在 DCGM 1.5.0 中添加

公共成员

unsigned int version

版本号 (使用 dcgmGroupInfo_version2)

unsigned int count

entityList 中返回的 entityId 的计数

char groupName[256]

组名。

dcgmGroupEntityPair_t entityList[64]

此组中实体的列表。

struct dcgmGroupInfo_v3
#include <dcgm_structs.h>

用于存储 DCGM 组信息的结构体。

在 DCGM 1.5.0 中添加

公共成员

unsigned int version

版本号 (使用 dcgmGroupInfo_version3)

unsigned int count

entityList 中返回的 entityId 的计数

char groupName[256]

组名。

dcgmGroupEntityPair_t entityList[1024]

此组中实体的列表。

struct dcgmMigHierarchyInfo_t
#include <dcgm_structs.h>

表示实体配对,以唯一标识实体及其在层次结构中的位置。

公共成员

dcgmGroupEntityPair_t entity

相关实体的实体 ID 和类型。

dcgmGroupEntityPair_t parent

相关实体的父实体的实体 ID 和类型。

dcgmMigProfile_t sliceProfile

实体 MIG 配置文件标识符。

struct dcgmMigEntityInfo_t
#include <dcgm_structs.h>

提供有关 MIG 实体位置的附加信息。

公共成员

char gpuUuid[128]

GPU UUID

unsigned int nvmlGpuIndex

来自 NVML 的 GPU 索引

unsigned int nvmlInstanceId

GPU 内的 GPU 实例索引。 0 到 N。GPU 实体为 -1

unsigned int nvmlComputeInstanceId

GPU 实例内的 GPU 计算实例索引。 0 到 N。GPU 实例和 GPU 实体为 -1

unsigned int nvmlMigProfileId

GPU 或计算实例的唯一配置文件 ID。GPU 实体为 -1

另请参阅

nvmlComputeInstanceProfileInfo_st

另请参阅

nvmlGpuInstanceProfileInfo_st

unsigned int nvmlProfileSlices

MIG 配置文件中的切片数

struct dcgmMigHierarchyInfo_v2
struct dcgmMigHierarchy_v2
struct dcgmCpuHierarchyOwnedCores_v1
struct dcgmCpuHierarchy_v1
#include <dcgm_structs.h>

CPU 及其内核的层次结构。

struct dcgmCpuHierarchyCpu_v1
struct dcgmCpuHierarchy_v2
struct dcgmCpuHierarchyCpu_v2
struct dcgmFieldGroupInfo_v1
#include <dcgm_structs.h>

表示字段组信息的结构体。

公共成员

unsigned int version

版本号 (dcgmFieldGroupInfo_version)

unsigned int numFieldIds

fieldIds[] 中有效条目的数量。

dcgmFieldGrp_t fieldGroupId

此字段组的 ID。

char fieldGroupName[256]

字段组名称。

unsigned short fieldIds[128]

属于此组的字段 ID。

struct dcgmAllFieldGroup_v1

公共成员

unsigned int version

版本号 (dcgmAllFieldGroupInfo_version)

unsigned int numFieldGroups

fieldGroups[] 中已填充条目的数量。

dcgmFieldGroupInfo_t fieldGroups[64]

有关每个字段组的信息。

struct dcgmErrorInfo_t
#include <dcgm_structs.h>

表示错误属性的结构体。

公共成员

unsigned int gpuId

表示 GPU ID。

short fieldId

DCGM_FI_? 之一

int status

DCGM_ST_? 之一

struct dcgmClockSet_v1
#include <dcgm_structs.h>

表示设备的内存、SM 和视频时钟的集合。

这可以是基于上下文的当前值或目标值

公共成员

int version

版本号 (dcgmClockSet_version)

unsigned int memClock

内存时钟 (内存时钟值或 DCGM_INT32_BLANK 以忽略/使用与 smClk 兼容的值)

unsigned int smClock

SM 时钟 (SM 时钟值或 DCGM_INT32_BLANK 以忽略/使用与 memClk 兼容的值)

struct dcgmDeviceSupportedClockSets_v1
#include <dcgm_structs.h>

表示设备支持的时钟集列表。

公共成员

unsigned int version

版本号 (dcgmDeviceSupportedClockSets_version)

unsigned int count

支持的时钟数。

dcgmClockSet_t clockSet[256]

设备的有效时钟集。最多填充 count 个条目。

struct dcgmDevicePidAccountingStats_v1
#include <dcgm_structs.h>

表示一个进程的统计数据。

公共成员

unsigned int version

版本号。应与 dcgmDevicePidAccountingStats_version 匹配。

unsigned int pid

此统计数据所属进程的进程 ID。

unsigned int gpuUtilization

进程生命周期内,一个或多个内核在 GPU 上执行的时间百分比。

如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED

unsigned int memoryUtilization

进程生命周期内,全局(设备)内存正在被读取或写入的时间百分比。

如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED

unsigned long long maxMemoryUsage

进程曾经分配的最大总内存(以字节为单位)。

如果不支持,则设置为 DCGM_INT64_NOT_SUPPORTED

unsigned long long startTimestamp

CPU 时间戳,以微秒为单位表示进程的开始时间。

unsigned long long activeTimeUsec

计算上下文处于活动状态的微秒数。

请注意,这并不意味着上下文正在被使用。 endTimestamp 可以计算为 startTimestamp + activeTime

struct dcgmDeviceThermals_v1
#include <dcgm_structs.h>

表示热信息。

公共成员

unsigned int version

版本号。

unsigned int slowdownTemp

降速温度。

unsigned int shutdownTemp

关机温度。

struct dcgmDevicePowerLimits_v1
#include <dcgm_structs.h>

表示各种功率限制。

公共成员

unsigned int version

版本号。

unsigned int curPowerLimit

与此设备关联的功率管理限制(单位:W)

unsigned int defaultPowerLimit

设备启动时生效的功率管理限制(单位:W)

unsigned int enforcedPowerLimit

驱动程序在考虑所有限制器后强制执行的有效功率限制(单位:W)

unsigned int minPowerLimit

最小功率管理限制(单位:瓦)

unsigned int maxPowerLimit

最大功率管理限制(单位:瓦)

struct dcgmDeviceIdentifiers_v1
#include <dcgm_structs.h>

表示设备标识符。

公共成员

unsigned int version

版本号 (dcgmDeviceIdentifiers_version)

char brandName[256]

品牌名称。

char deviceName[256]

设备名称。

char pciBusId[256]

PCI 总线 ID。

char serial[256]

设备的序列号。

char uuid[256]

设备的 UUID。

char vbios[256]

VBIOS 版本。

char inforomImageVersion[256]

Inforom 镜像版本。

unsigned int pciDeviceId

组合的 16 位设备 ID 和 16 位供应商 ID。

unsigned int pciSubSystemId

32 位子系统设备 ID。

char driverVersion[256]

驱动程序版本。

unsigned int virtualizationMode

虚拟化模式。

struct dcgmDeviceMemoryUsage_v1
#include <dcgm_structs.h>

表示设备内存和使用情况。

公共成员

unsigned int version

版本号 (dcgmDeviceMemoryUsage_version)

unsigned int bar1Total

BAR1 总大小,单位为兆字节。

unsigned int fbTotal

帧缓冲区总内存,单位为兆字节。

unsigned int fbUsed

已用帧缓冲区内存,单位为兆字节。

unsigned int fbFree

可用帧缓冲区内存,单位为兆字节。

struct dcgmDeviceVgpuUtilInfo_v1
#include <dcgm_structs.h>

表示设备上运行的 vGPU 的利用率值。

公共成员

unsigned int version

版本号 (dcgmDeviceVgpuUtilInfo_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int smUtil

vGPU 的 GPU 利用率。

unsigned int memUtil

vGPU 的内存利用率。

unsigned int encUtil

vGPU 的编码器利用率。

unsigned int decUtil

vGPU 的解码器利用率。

struct dcgmDeviceEncStats_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例的当前编码器统计信息。

公共成员

unsigned int version

版本号 (dcgmDeviceEncStats_version)

unsigned int sessionCount

活动编码器会话计数。

unsigned int averageFps

所有活动会话的尾部平均 FPS。

unsigned int averageLatency

编码延迟,单位为毫秒。

struct dcgmDeviceFbcStats_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例的当前帧缓冲区捕获会话统计信息。

公共成员

unsigned int version

版本号 (dcgmDeviceFbcStats_version)

unsigned int sessionCount

活动 FBC 会话计数。

unsigned int averageFps

每秒捕获的新帧的移动平均值。

unsigned int averageLatency

捕获新帧的移动平均延迟,单位为微秒。

struct dcgmDeviceFbcSessionInfo_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例上活动 FBC 会话的相关信息。

公共成员

unsigned int version

版本号 (dcgmDeviceFbcSessionInfo_version)

unsigned int sessionId

唯一会话 ID。

unsigned int pid

所有者进程 ID。

unsigned int vgpuId

vGPU 实例 ID(仅在 vGPU 主机上有效,否则为零)

unsigned int displayOrdinal

显示标识符。

dcgmFBCSessionType_t sessionType

帧缓冲区捕获会话的类型。

unsigned int sessionFlags

会话标志。

unsigned int hMaxResolution

捕获会话支持的最大水平分辨率。

unsigned int vMaxResolution

捕获会话支持的最大垂直分辨率。

unsigned int hResolution

调用方在捕获调用中请求的水平分辨率。

unsigned int vResolution

调用方在捕获调用中请求的垂直分辨率。

unsigned int averageFps

每秒捕获的新帧的移动平均值。

unsigned int averageLatency

捕获新帧的移动平均延迟,单位为微秒。

struct dcgmDeviceFbcSessions_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例上的所有活动 FBC 会话。

公共成员

unsigned int version

版本号 (dcgmDeviceFbcSessions_version)

unsigned int sessionCount

活动 FBC 会话计数。

dcgmDeviceFbcSessionInfo_t sessionInfo[256]

有关活动 FBC 会话的信息。

struct dcgmDeviceVgpuEncSessions_v1
#include <dcgm_structs.h>

表示给定 vGPU 实例上活动编码器会话的相关信息。

公共成员

unsigned int version

版本号 (dcgmDeviceVgpuEncSessions_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int sessionId

唯一会话 ID。

unsigned int pid

进程 ID。

dcgmEncoderType_t codecType

视频编码器类型。

unsigned int hResolution

当前编码水平分辨率。

unsigned int vResolution

当前编码垂直分辨率。

unsigned int averageFps

编码帧的移动平均帧率。

unsigned int averageLatency

编码延迟的移动平均值,单位为毫秒。

struct dcgmDeviceVgpuProcessUtilInfo_v1
#include <dcgm_structs.h>

表示使用该设备的 vGPU VM 中运行的进程的利用率值。

公共成员

unsigned int version

版本号 (dcgmDeviceVgpuProcessUtilInfo_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int vgpuProcessSamplesCount

vGPU VM 中运行的进程计数,这些进程的利用率在本周期内报告。

unsigned int pid

vGPU VM 中运行的进程的进程 ID。

char processName[64]

vGPU VM 中运行的进程的名称。

unsigned int smUtil

vGPU VM 中运行的进程的 GPU 利用率。

unsigned int memUtil

vGPU VM 中运行的进程的显存利用率。

unsigned int encUtil

vGPU VM 中运行的进程的编码器利用率。

unsigned int decUtil

vGPU VM 中运行的进程的解码器利用率。

struct dcgmDeviceVgpuTypeInfo_v1
#include <dcgm_structs.h>

表示设备上支持的 vGPU 相关的静态信息。

公共成员

unsigned int version

版本号 (dcgmDeviceVgpuTypeInfo_version)

union dcgmDeviceVgpuTypeInfo_v1::[anonymous] vgpuTypeInfo

vGPU 类型 ID 和支持的 vGPU 类型计数

char vgpuTypeName[64]

vGPU 类型名称

char vgpuTypeClass[64]

vGPU 类型的类别。

char vgpuTypeLicense[128]

vGPU 类型的许可证

int deviceId

vGPU 类型的设备 ID

int subsystemId

vGPU 类型的子系统 ID。

int numDisplayHeads

vGPU 支持的显示头数量。

int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

int frameRateLimit

vGPU 类型的帧率限制值。

int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

int fbTotal

vGPU 总帧缓冲区大小,以兆字节为单位

struct dcgmDeviceVgpuTypeInfo_v2

公共成员

版本号 (dcgmDeviceVgpuTypeInfo_version2)

unsigned int version

union dcgmDeviceVgpuTypeInfo_v2::[anonymous] vgpuTypeInfo

vGPU 类型 ID 和支持的 vGPU 类型计数

char vgpuTypeName[64]

vGPU 类型名称

char vgpuTypeClass[64]

vGPU 类型的类别。

char vgpuTypeLicense[128]

vGPU 类型的许可证

int deviceId

vGPU 类型的设备 ID

int subsystemId

vGPU 类型的子系统 ID。

int numDisplayHeads

vGPU 支持的显示头数量。

int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

int frameRateLimit

vGPU 类型的帧率限制值。

int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

int fbTotal

vGPU 总帧缓冲区大小,以兆字节为单位

int gpuInstanceProfileId

给定 vGPU 类型的 GPU 实例 Profile ID。

struct dcgmDeviceSupportedVgpuTypeInfo_v1
#include <dcgm_structs.h>

表示设备上支持的 vGPU 相关的信息。

公共成员

unsigned int version

版本号 (dcgmDeviceSupportedVgpuTypeInfo_version)

unsigned long long deviceId

vGPU 类型的设备 ID

unsigned long long subsystemId

vGPU 类型的子系统 ID。

unsigned int numDisplayHeads

vGPU 支持的显示头数量。

unsigned int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

unsigned int frameRateLimit

vGPU 类型的帧率限制值。

unsigned int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

unsigned int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

unsigned long long fbTotal

vGPU 总帧缓冲区大小,以兆字节为单位

unsigned int gpuInstanceProfileId

给定 vGPU 类型的 GPU 实例 Profile ID。

struct dcgmDeviceSettings_v2
struct dcgmDeviceAttributes_v3

公共成员

unsigned int version

版本号 (dcgmDeviceAttributes_version)

dcgmDeviceSupportedClockSets_t clockSets

设备支持的时钟。

dcgmDeviceThermals_t thermalSettings

设备的散热设置。

dcgmDevicePowerLimits_t powerLimits

设备的各种功率限制。

dcgmDeviceIdentifiers_t identifiers

设备的标识符。

dcgmDeviceMemoryUsage_t memoryUsage

设备的显存使用信息。

dcgmDeviceSettings_v2 settings

基本设备设置。

struct dcgmDeviceMigAttributesInfo_v1
#include <dcgm_structs.h>

表示 MIG 设备的属性信息的结构体。

公共成员

unsigned int version

版本号 (dcgmDeviceMigAttributesInfo_version)

unsigned int gpuInstanceId

GPU 实例 ID。

unsigned int computeInstanceId

计算实例 ID。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int sharedCopyEngineCount

共享复制引擎计数。

unsigned int sharedDecoderCount

共享解码器引擎计数。

unsigned int sharedEncoderCount

共享编码器引擎计数。

unsigned int sharedJpegCount

共享 JPEG 引擎计数。

unsigned int sharedOfaCount

共享 OFA 引擎计数。

unsigned int gpuInstanceSliceCount

GPU 实例切片计数。

unsigned int computeInstanceSliceCount

计算实例切片计数。

unsigned long long memorySizeMB

设备内存大小 (单位:MiB)

struct dcgmDeviceMigAttributes_v1
#include <dcgm_structs.h>

用于表示 MIG 设备属性的结构体。

公共成员

unsigned int version

版本号 (dcgmDeviceMigAttributes_version)

unsigned int migDevicesCount

MIG 设备计数。

dcgmDeviceMigAttributesInfo_v1 migAttributesInfo

MIG 属性信息。

struct dcgmGpuInstanceProfileInfo_v1
#include <dcgm_structs.h>

用于表示 GPU 实例配置文件信息的结构体。

公共成员

unsigned int version

版本号 (dcgmGpuInstanceProfileInfo_version)

unsigned int id

设备内唯一的配置文件 ID。

unsigned int isP2pSupported

点对点 (Peer-to-Peer) 支持。

unsigned int sliceCount

GPU 切片计数。

unsigned int instanceCount

GPU 实例计数。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int copyEngineCount

复制引擎计数。

unsigned int decoderCount

解码器引擎计数。

unsigned int encoderCount

编码器引擎计数。

unsigned int jpegCount

JPEG 引擎计数。

unsigned int ofaCount

OFA 引擎计数。

unsigned long long memorySizeMB

内存大小,单位兆字节 (MB)。

struct dcgmGpuInstanceProfiles_v1
#include <dcgm_structs.h>

用于表示 GPU 实例配置文件的结构体。

公共成员

unsigned int version

版本号 (dcgmGpuInstanceProfiles_version)

unsigned int profileCount

配置文件计数。

dcgmGpuInstanceProfileInfo_v1 profileInfo

GPU 实例配置文件信息。

struct dcgmComputeInstanceProfileInfo_v1
#include <dcgm_structs.h>

用于表示计算实例配置文件信息的结构体。

公共成员

unsigned int version

版本号 (dcgmComputeInstanceProfileInfo_version)

unsigned int gpuInstanceId

GPU 实例 ID。

unsigned int id

GPU 实例内唯一的配置文件 ID。

unsigned int sliceCount

GPU 切片计数。

unsigned int instanceCount

计算实例计数。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int sharedCopyEngineCount

共享复制引擎计数。

unsigned int sharedDecoderCount

共享解码器引擎计数。

unsigned int sharedEncoderCount

共享编码器引擎计数。

unsigned int sharedJpegCount

共享 JPEG 引擎计数。

unsigned int sharedOfaCount

共享 OFA 引擎计数。

struct dcgmComputeInstanceProfiles_v1
#include <dcgm_structs.h>

用于表示计算实例配置文件的结构体。

公共成员

unsigned int version

版本号 (dcgmComputeInstanceProfiles_version)

unsigned int profileCount

配置文件计数。

dcgmComputeInstanceProfileInfo_v1 profileInfo

计算实例配置文件信息。

struct dcgmWorkloadPowerProfileInfo_v1

公共成员

unsigned int version

API 版本号

struct dcgmWorkloadPowerProfileProfilesInfo_v1

公共成员

unsigned int version

API 版本号

dcgmWorkloadPowerProfileInfo_v1 workloadPowerProfile[(255)]

工作负载功耗配置文件信息参数数组。

struct dcgmDeviceWorkloadPowerProfilesStatus_v1
#include <dcgm_structs.h>

设备工作负载配置文件信息。

公共成员

unsigned int version

API 版本号

unsigned int profileMask[8]

有效工作负载功耗配置文件的位掩码。

struct dcgmConfigPerfStateSettings_t
#include <dcgm_structs.h>

用于表示性能状态设置。

公共成员

unsigned int syncBoost

同步加速模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)。

请注意,使用此设置可能会导致时钟频率低于 targetClocks

dcgmClockSet_t targetClocks

目标时钟频率。

将 smClock 和 memClock 设置为 DCGM_INT32_BLANK 以忽略/使用兼容值。对于 Maxwell 或更高版本的 GPU,设置此项意味着 autoBoost=0

struct dcgmConfigPowerLimit_t
#include <dcgm_structs.h>

用于表示组中每个 GPU 的功率上限或表示整个组的功率预算。

公共成员

dcgmConfigPowerLimitType_t type

标志,用于表示每个 GPU 的功率上限或 GPU 组的功率预算。

unsigned int val

功率限制,单位瓦特 (设置一个值或 DCGM_INT32_BLANK 以忽略)

struct dcgmConfig_v1
#include <dcgm_structs.h>

用于表示设备的默认和目标配置的结构体。

公共成员

unsigned int version

版本号 (dcgmConfig_version)

unsigned int gpuId

GPU ID。

unsigned int eccMode

ECC 模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)

unsigned int computeMode

计算模式 (DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)

dcgmConfigPerfStateSettings_t perfState

性能状态设置 (时钟频率 / 加速模式)

dcgmConfigPowerLimit_t powerLimit

功耗限制。

struct dcgmConfig_v2

公共成员

unsigned int version

版本号 (dcgmConfig_version)

unsigned int gpuId

GPU ID。

unsigned int eccMode

ECC 模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)

unsigned int computeMode

计算模式 (DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)

dcgmConfigPerfStateSettings_t perfState

性能状态设置 (时钟频率 / 加速模式)

dcgmConfigPowerLimit_t powerLimit

功耗限制。

struct dcgmPolicyViolation_v1

公共成员

unsigned int version

版本号 (dcgmPolicyViolation_version)

unsigned int notifyOnEccDbe

ECC 双位错误的 true/false 通知

unsigned int notifyOnPciEvent

PCI 事件的 true/false 通知

unsigned int notifyOnMaxRetiredPages

发生多少个已退役页面后进行通知

struct dcgmPolicyConditionParams_st
#include <dcgm_structs.h>

策略条件参数的结构体。

此结构体包含一个标签,表示传递的值的类型,以及一个 “val”,它是可能值类型的联合。例如,要传递一个真布尔值:tag = BOOL,val.boolean = 1。

struct dcgmPolicyViolationNotify_t
#include <dcgm_structs.h>

当用户查询策略违规时填充的结构体。

公共成员

unsigned int gpuId

GPU ID

unsigned int violationOccurred

基于 dcgmPolicyCondition_t 中位值的违规

struct dcgmPolicy_v1
#include <dcgm_structs.h>

定义指定 GPU 要强制执行的策略的结构体。

公共成员

unsigned int version

版本号 (dcgmPolicy_version)

dcgmPolicyCondition_t condition

访问 dcgmPolicyCondition_t 的条件。

dcgmPolicyMode_t mode

操作模式 dcgmPolicyMode_t

dcgmPolicyIsolation_t isolation

策略违规后的隔离级别 dcgmPolicyIsolation_t

dcgmPolicyAction_t action

策略违规后要执行的动作 dcgmPolicyAction_t action。

dcgmPolicyValidation_t validation

采取动作后要执行的验证 dcgmPolicyValidation_t

dcgmPolicyFailureResp_t response

验证失败响应 dcgmPolicyFailureResp_t

dcgmPolicyConditionParams_t parms[7]

condition 字段的参数。

struct dcgmPolicyConditionDbe_t
#include <dcgm_structs.h>

定义 ECC DBE 返回结构体。

公共成员

long long timestamp

错误的 时间戳

enum dcgmPolicyConditionDbe_t::[anonymous] location

错误的位置

unsigned int numerrors

错误数量

struct dcgmPolicyConditionPci_t
#include <dcgm_structs.h>

定义 PCI 重放错误返回结构体。

公共成员

long long timestamp

错误的 时间戳

unsigned int counter

PCIe 重放计数器的值

struct dcgmPolicyConditionMpr_t
#include <dcgm_structs.h>

定义最大待处理的已退役页面限制返回结构体。

公共成员

long long timestamp

错误的 时间戳

unsigned int sbepages

由于 SBE 导致的待处理页面数

unsigned int dbepages

由于 DBE 导致的待处理页面数

struct dcgmPolicyConditionThermal_t
#include <dcgm_structs.h>

定义热策略违规返回结构体。

公共成员

long long timestamp

错误的 时间戳

unsigned int thermalViolation

达到的违反策略的温度。

struct dcgmPolicyConditionPower_t
#include <dcgm_structs.h>

定义功耗策略违规返回结构体。

公共成员

long long timestamp

错误的 时间戳

unsigned int powerViolation

达到的违反策略的功耗值。

#include <dcgm_structs.h>

定义 nvlink 策略违规返回结构体。

公共成员

错误的 时间戳

违反策略的 Nvlink 计数器字段 ID。

违反策略的 Nvlink 计数值。

struct dcgmPolicyConditionXID_t
#include <dcgm_structs.h>

定义 xid 策略违规返回结构体。

公共成员

long long timestamp

错误的时间戳。

unsigned int errnum

XID 错误号。

struct dcgmPolicyCallbackResponse_v2
#include <dcgm_structs.h>

定义提供给回调函数的结构体。

公共成员

unsigned int version

版本号 (dcgmPolicyCallbackResponse_version)

dcgmPolicyCondition_t condition

被违反的条件。

dcgmPolicyConditionDbe_t dbe

ECC DBE 返回结构体。

dcgmPolicyConditionPci_t pci

PCI 重放错误返回结构体。

dcgmPolicyConditionMpr_t mpr

最大已退役页面限制返回结构体。

dcgmPolicyConditionThermal_t thermal

热策略违规返回结构体。

dcgmPolicyConditionPower_t power

功耗策略违规返回结构体。

dcgmPolicyConditionNvlink_t nvlink

Nvlink 策略违规返回结构体。

dcgmPolicyConditionXID_t xid

XID 策略违规返回结构体。

unsigned int gpuId

违反策略的 GPU 的 GPU ID。

struct dcgmFieldValue_v1
#include <dcgm_structs.h>

此结构体用于表示要查询的字段的值。

公共成员

unsigned int version

版本号 (dcgmFieldValue_version1)

unsigned short fieldId

DCGM_FI_? 之一

unsigned short fieldType

DCGM_FT_? 之一

int status

查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一

int64_t ts

自 1970 年以来的微秒时间戳。

int64_t i64

Int64 值。

double dbl

Double 值。

char str[256]

NULL 结尾的字符串。

char blob[4096]

二进制数据块。

union dcgmFieldValue_v1::[anonymous] value

值。

struct dcgmFieldValue_v2
#include <dcgm_structs.h>

此结构体用于表示要查询的字段的值。

公共成员

unsigned int version

版本号 (dcgmFieldValue_version2)

dcgm_field_entity_group_t entityGroupId

此字段值的实体所属的实体组。

dcgm_field_eid_t entityId

此字段值所属的实体。

unsigned short fieldId

DCGM_FI_? 之一

unsigned short fieldType

DCGM_FT_? 之一

int status

查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一

unsigned int unused

目前未使用,用于将 ts 对齐到 8 字节边界。

int64_t ts

自 1970 年以来的微秒时间戳。

int64_t i64

Int64 值。

double dbl

Double 值。

char str[256]

NULL 结尾的字符串。

char blob[4096]

二进制数据块。

union dcgmFieldValue_v2::[anonymous] value

值。

struct dcgmStatSummaryInt64_t
#include <dcgm_structs.h>

int64 格式的时间序列数据摘要。

每个值将被设置或为空白值。使用 DCGM_INT64_IS_BLANK() 宏检查空白。

另请参阅

有关空白值的实际值,请参阅 dcgmvalue.h

公共成员

long long minValue

所查看样本的最小值。

long long maxValue

所查看样本的最大值。

long long average

所查看样本的简单平均值。此计算忽略空白值。

struct dcgmStatSummaryInt32_t
#include <dcgm_structs.h>

dcgmStatSummaryInt64_t 相同,但使用 32 位整数值。

公共成员

int minValue

所查看样本的最小值。

int maxValue

所查看样本的最大值。

int average

所查看样本的简单平均值。此计算忽略空白值。

struct dcgmStatSummaryFp64_t
#include <dcgm_structs.h>

双精度格式的时间序列数据摘要。

每个值将被设置或为空白值。使用 DCGM_FP64_IS_BLANK() 宏检查空白。

另请参阅

有关空白值的实际值,请参阅 dcgmvalue.h

公共成员

double minValue

所查看样本的最小值。

double maxValue

所查看样本的最大值。

double average

所查看样本的简单平均值。此计算忽略空白值。

struct dcgmDiagErrorDetail_t
struct dcgmDiagErrorDetail_v2
#include <dcgm_structs.h>

错误详情。

自 DCGM 3.3 起

公共成员

unsigned int category

请参阅 dcgmErrorCategory_t。

unsigned int severity

请参阅 dcgmErrorSeverity_t。

struct dcgmDiagInfo_v1
#include <dcgm_structs.h>

诊断插件的每个实体信息结果 v1。

自 DCGM 4.0 起

公共成员

dcgmGroupEntityPair_t entity

与信息关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。

char msg[512]

与插件报告的错误相关的任何消息。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagError_v1
#include <dcgm_structs.h>

诊断插件的每个实体错误结果 v1。

自 DCGM 4.0 起

公共成员

dcgmGroupEntityPair_t entity

与错误关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。

unsigned int code

正在报告的错误代码。

unsigned int category

报告的错误类别。请参阅 dcgm_errors.h 中的 dcgmErrorCategory_t。

unsigned int severity

报告的错误的严重性。请参阅 dcgm_errors.h 中的 dcgmErrorSeverity_t。

char msg[512]

与插件报告的错误相关的任何消息。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagEntityResult_v1
#include <dcgm_structs.h>

诊断插件的每个实体错误结果 v1。

自 DCGM 4.0 起。另请参阅 PluginInterface.h: dcgmDiagEntityResults_v1。

公共成员

dcgmGroupEntityPair_t entity

与结果关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。

dcgmDiagResult_t result

此实体的结果。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagTestAuxData_v1
#include <dcgm_structs.h>

每个测试的辅助数据结构 v1。

自 DCGM 4.0 起

公共成员

unsigned int version

版本号 (dcgmDiagTestAuxData_version1)

struct dcgmDiagTestRun_v1
#include <dcgm_structs.h>

有关每次测试运行的信息。

自 DCGM 4.0 起

公共成员

char name[32]

测试的名称。

char pluginName[32]

此测试所属的插件名称。

dcgmDiagResult_t result

插件的总体结果(PASS、FAIL、SKIP、WARN、NOT_RUN)。

unsigned char numErrors

错误数,在 PASS 时始终为 0。

unsigned char numInfo

信息消息数。

unsigned char categoryIndex

DiagResponse.categories 的索引。

unsigned char _unused

填充字节

unsigned short numResults

实体结果数。

unsigned char errorIndices[32]

此运行的每个实体的错误索引。

unsigned char infoIndices[16]

此运行的每个实体的信息索引。

unsigned short resultIndices[1024]

此运行的每个实体的结果索引。

struct dcgmDiagEntity_v1
#include <dcgm_structs.h>

以实体为中心的诊断运行的附加实体详细信息。

自 DCGM 4.0 起。

公共成员

dcgmGroupEntityPair_t entity

实体组和实体 ID。

char serialNum[256]

序列号(字符串;仅 GPU?)。

char skuDeviceId[5]

PCI 设备 ID(字符串;仅 GPU?)。

struct dcgmIncidentInfo_t

公共成员

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此事件的健康状况诊断

dcgmDiagErrorDetail_t error

有关错误及其错误代码的信息。

dcgmGroupEntityPair_t entityInfo

标识哪个实体有此错误

struct dcgmHealthResponse_v5
#include <dcgm_structs.h>

健康响应结构版本 4 - 简单地列出事件,而不是按实体报告。

自 DCGM 2.0 起

公共成员

unsigned int version

此结构体的版本号。

dcgmHealthWatchResults_t overallHealth

此主机的总体健康状况。

unsigned int incidentCount

此结构体中报告的健康事件数量。

dcgmIncidentInfo_t incidents[1024]

检测到的错误报告。

struct dcgmHealthSetParams_v2
#include <dcgm_structs.h>

用于通过 dcgmHealthSet_v2 API 设置健康监视的结构体。

公共成员

unsigned int version

此结构体的版本。应为 dcgmHealthSet_version2

dcgmGpuGrp_t groupId

组 ID,表示一个或多个实体的集合。查看 dcgmGroupCreate 以获取有关创建组的详细信息。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。

dcgmHealthSystems_t systems

一个枚举,表示应启用哪些系统进行健康检查,并进行逻辑 OR 运算。 有关详细信息,请参阅 dcgmHealthSystems_t

long long updateInterval

从 NVIDIA 驱动程序查询底层健康信息的频率,单位为微秒。 这应与您调用 dcgmHealthCheck 的频率相同

double maxKeepAge

为此字段缓存数据的时间长度,单位为秒。 这应至少是您调用 dcgmHealthCheck 的最大时间间隔

struct dcgmProcessUtilInfo_t
#include <dcgm_structs.h>

每个进程的利用率

struct dcgmProcessUtilSample_t
#include <dcgm_structs.h>

用于获取 PID 和相应利用率的内部结构体。

struct dcgmPidSingleInfo_t
#include <dcgm_structs.h>

对应于单个 PID 的信息。

公共成员

unsigned int gpuId

此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。

long long energyConsumed

GPU 消耗的能量,单位为毫瓦/秒。

dcgmStatSummaryInt64_t pcieRxBandwidth

从 GPU 读取的 PCI-E 字节数。

dcgmStatSummaryInt64_t pcieTxBandwidth

写入 GPU 的 PCI-E 字节数。

long long pcieReplays

发生的 PCI-E 重放计数。

long long startTime

进程启动时间,自 1970 年以来的微秒数。

long long endTime

进程结束时间,自 1970 年以来的微秒数;如果进程未完成,则报告为 0。

dcgmProcessUtilInfo_t processUtilization

进程 SM 和内存利用率(百分比)

dcgmStatSummaryInt32_t smUtilization

GPU SM 利用率,以百分比表示。

dcgmStatSummaryInt32_t memoryUtilization

GPU 内存利用率,以百分比表示。

unsigned int eccSingleBit

已弃用 - 发生的 ECC 单位错误计数。

unsigned int eccDoubleBit

发生的 ECC 双位错误计数。

dcgmStatSummaryInt32_t memoryClock

内存时钟频率,单位为 MHz。

dcgmStatSummaryInt32_t smClock

SM 时钟频率,单位为 MHz。

int numXidCriticalErrors

xidCriticalErrorsTs 中有效条目的数量。

long long xidCriticalErrorsTs[10]

发生的严重 XID 错误的时间戳。

int numOtherComputePids

有效 otherComputePids 条目的计数。

unsigned int otherComputePids[16]

运行的其他计算进程。 0=无进程。

int numOtherGraphicsPids

有效 otherGraphicsPids 条目的计数。

unsigned int otherGraphicsPids[16]

运行的其他图形进程。 0=无进程。

long long maxGpuMemoryUsed

已使用的最大 GPU 内存量,单位为字节。

long long powerViolationTime

由于功率违规而降低时钟频率的微秒数。

long long thermalViolationTime

由于热违规而降低时钟频率的微秒数。

long long reliabilityViolationTime

由于可靠性限制而降低时钟频率的微秒数。

long long boardLimitViolationTime

由于达到板卡最大电压而降低时钟频率的微秒数。

long long lowUtilizationTime

由于低利用率而降低时钟频率的微秒数。

long long syncBoostTime

由于同步加速而降低时钟频率的微秒数。

dcgmHealthWatchResults_t overallHealth

系统的总体健康状况。 dcgmHealthWatchResults_t

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此 GPU 上指定系统的健康状况

struct dcgmPidInfo_v2
#include <dcgm_structs.h>

用于存储进程统计信息。

公共成员

unsigned int version

此消息的版本 (dcgmPidInfo_version)

unsigned int pid

进程的 PID。

int numGpus

GPUs 中有效的 GPU 数量。

dcgmPidSingleInfo_t summary

gpus[] 中列出的所有 GPU 的摘要信息。

dcgmPidSingleInfo_t gpus[32]

此 PID 的每个 GPU 信息。

struct dcgmGpuUsageInfo_t
#include <dcgm_structs.h>

与 GPU 上的作业相对应的信息。

公共成员

unsigned int gpuId

此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。

long long energyConsumed

以毫瓦/秒为单位消耗的能量。

dcgmStatSummaryFp64_t powerUsage

功率使用量,最小值/最大值/平均值,单位为瓦特。

dcgmStatSummaryInt64_t pcieRxBandwidth

从 GPU 读取的 PCI-E 字节数。

dcgmStatSummaryInt64_t pcieTxBandwidth

写入 GPU 的 PCI-E 字节数。

long long pcieReplays

发生的 PCI-E 重放计数。

long long startTime

用户提供的作业开始时间,自 1970 年以来的微秒数。

long long endTime

用户提供的作业结束时间,自 1970 年以来的微秒数。

dcgmStatSummaryInt32_t smUtilization

GPU SM 利用率,以百分比表示。

dcgmStatSummaryInt32_t memoryUtilization

GPU 内存利用率,以百分比表示。

unsigned int eccSingleBit

已弃用 - 发生的 ECC 单位错误计数。

unsigned int eccDoubleBit

发生的 ECC 双位错误计数。

dcgmStatSummaryInt32_t memoryClock

内存时钟频率,单位为 MHz。

dcgmStatSummaryInt32_t smClock

SM 时钟频率,单位为 MHz。

int numXidCriticalErrors

xidCriticalErrorsTs 中有效条目的数量。

long long xidCriticalErrorsTs[10]

发生的严重 XID 错误的时间戳。

有效 computePids 条目的计数。

int numComputePids

dcgmProcessUtilInfo_t computePidInfo[16]

在作业期间运行的计算进程列表。

0=无进程

int numGraphicsPids

有效 graphicsPids 条目的计数。

dcgmProcessUtilInfo_t graphicsPidInfo[16]

在作业期间运行的计算进程列表。

0=无进程

long long maxGpuMemoryUsed

已使用的最大 GPU 内存量,单位为字节。

long long powerViolationTime

由于功率违规而降低时钟频率的微秒数。

long long thermalViolationTime

由于热违规而降低时钟频率的微秒数。

long long reliabilityViolationTime

由于可靠性限制而降低时钟频率的微秒数。

long long boardLimitViolationTime

由于达到板卡最大电压而降低时钟频率的微秒数。

long long lowUtilizationTime

由于低利用率而降低时钟频率的微秒数。

long long syncBoostTime

由于同步加速而降低时钟频率的微秒数。

dcgmHealthWatchResults_t overallHealth

系统的总体健康状况。 dcgmHealthWatchResults_t

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此 GPU 上指定系统的健康状况

struct dcgmJobInfo_v3
#include <dcgm_structs.h>

用于存储作业统计信息 以下字段不适用于摘要信息

  • pcieRxBandwidth(最小值/最大值)

  • pcieTxBandwidth(最小值/最大值)

  • smUtilization(最小值/最大值)

  • memoryUtilization(最小值/最大值)

  • memoryClock(最小值/最大值)

  • smClock(最小值/最大值)

  • processSamples

上述字段的平均值(在摘要中)是所有 GPU 中相应字段平均值的平均值

公共成员

unsigned int version

此消息的版本 (dcgmPidInfo_version)

int numGpus

gpus[] 中有效的 GPU 数量。

dcgmGpuUsageInfo_t summary

gpus[] 中列出的所有 GPU 的摘要信息。

dcgmGpuUsageInfo_t gpus[32]

此 PID 的每个 GPU 信息。

struct dcgmRunningProcess_v1
#include <dcgm_structs.h>

用于计算或图形进程的运行进程信息。

公共成员

unsigned int version

此消息的版本 (dcgmRunningProcess_version)

unsigned int pid

进程的 PID。

unsigned long long memoryUsed

此进程使用的 GPU 内存,单位为字节。

struct dcgmDiagTestResult_v2

公共成员

dcgmDiagResult_t status

测试结果。

dcgmDiagErrorDetail_t error

错误消息和错误代码(如果有)。

char info[1024]

从测试返回的信息详情(如果有)。

struct dcgmDiagTestResult_v3

公共成员

dcgmDiagResult_t status

测试结果。

dcgmDiagErrorDetail_v2 error[5]

错误消息和错误代码(如果有)。

char info[512]

从测试返回的信息详情(如果有)。

struct dcgmDiagResponsePerGpu_v4
#include <dcgm_structs.h>

每 GPU 诊断结果结构体。

公共成员

unsigned int gpuId

此信息所属 GPU 的 ID。

unsigned int hwDiagnosticReturn

每 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v2 results[13]

包含每个每 GPU 测试结果的数组。

struct dcgmDiagResponsePerGpu_v5

公共成员

unsigned int gpuId

此信息所属 GPU 的 ID。

unsigned int hwDiagnosticReturn

每 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v3 results[13]

包含每个每 GPU 测试结果的数组。

struct dcgmDiagResponsePerGpu_v3
#include <dcgm_structs.h>

每 GPU 响应结构体 v3。

自 DCGM 2.4 起

公共成员

unsigned int gpuId

此信息所属 GPU 的 ID。

unsigned int hwDiagnosticReturn

每 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v2 results[9]

包含每个每 GPU 测试结果的数组。

struct dcgmDiagResponse_v11
#include <dcgm_structs.h>

全局诊断结果结构体 v11。

自 DCGM 4.0 起

公共成员

unsigned int version

版本号 (dcgmDiagResponse_v11)

unsigned char numTests

此响应中包含的测试数量。

unsigned char numErrors

此响应中包含的错误数量。

unsigned char numInfo

此响应中包含的信息消息数量。

unsigned char numCategories

此响应中包含的类别数量。

unsigned short numEntities

此响应中包含的实体数量。

unsigned short numResults

此响应中包含的结果数量。

dcgmDiagTestRun_v1 tests[20]

每个相关测试的测试运行信息。

dcgmDiagEntity_v1 entities[1024]

每实体详情。

dcgmDiagError_v1 errors[32]

每实体错误。

dcgmDiagInfo_v1 info[16]

每实体信息消息。

dcgmDiagEntityResult_v1 results[(20 * 1024)]

每实体结果。

char categories[5][20]

插件类别列表。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[682880]

为了与 v10 及更早版本保持二进制兼容性而需要。

struct dcgmDiagResponse_v10
#include <dcgm_structs.h>

全局诊断结果结构体 v10。

自 DCGM 3.3.7 起

公共成员

unsigned int version

版本号 (dcgmDiagResponse_v10)

unsigned int gpuCount

有效的每 GPU 结果的数量

unsigned int levelOneTestCount

有效的一级结果的数量

dcgmDiagTestResult_v3 levelOneResults[16]

基本的、系统范围的测试结果。

dcgmDiagResponsePerGpu_v5 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_v2 systemError

NVVS 报告的系统级错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char devSerials[32][256]

设备的序列号。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

dcgmDiagTestAuxData_v1 auxDataPerTest[13]

每个测试返回的辅助数据。

struct dcgmDiagResponse_v9
#include <dcgm_structs.h>

全局诊断结果结构 v9。

自 DCGM 3.3 起

公共成员

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

有效的每 GPU 结果的数量

unsigned int levelOneTestCount

有效的一级结果的数量

dcgmDiagTestResult_v3 levelOneResults[16]

基本的、系统范围的测试结果。

dcgmDiagResponsePerGpu_v5 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_v2 systemError

NVVS 报告的系统级错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char devSerials[32][256]

设备的序列号。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[596]

不再使用。

struct dcgmDiagResponse_v8
#include <dcgm_structs.h>

全局诊断结果结构 v8。

自 DCGM 3.0 起

公共成员

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

有效的每 GPU 结果的数量

unsigned int levelOneTestCount

有效的一级结果的数量

dcgmDiagTestResult_v2 levelOneResults[16]

基本的、系统范围的测试结果。

dcgmDiagResponsePerGpu_v4 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_t systemError

NVVS 报告的系统级错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[596]

不再使用。

struct dcgmDiagResponse_v7
#include <dcgm_structs.h>

全局诊断结果结构 v7。

自 DCGM 2.4 起

公共成员

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

有效的每 GPU 结果的数量

unsigned int levelOneTestCount

有效的一级结果的数量

dcgmDiagTestResult_v2 levelOneResults[16]

基本的、系统范围的测试结果。

dcgmDiagResponsePerGpu_v3 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_t systemError

NVVS 报告的系统级错误。

char _unused[1024]

不再使用。

struct dcgmDiagStatus_v1
#include <dcgm_structs.h>

诊断实时状态结构 v1。

自 DCGM 4.0 起

公共成员

unsigned int version

此结构的版本。

unsigned int totalTests

将要执行的测试数量。

unsigned int completedTests

已完成的测试数量。

char testName[128]

最后完成的测试名称。

unsigned int errorCode

最后完成的测试的第一个错误代码 - 成功时为 DCGM_FR_OK,否则为 DCGM_FR_*。

struct dcgmDeviceTopology_v1
#include <dcgm_structs.h>

设备拓扑信息。

公共成员

unsigned int version

版本号 (dcgmDeviceTopology_version)

unsigned long cpuAffinityMask[8]

指定 GPU 的亲缘性掩码

1 代表与该位位置的 CPU 亲缘性,最多支持 256 个核心

unsigned int numGpus

gpuPaths 中有效条目的数量

unsigned int gpuId

路径代表的 gpuId

dcgmGpuTopologyLevel_t path

从该 GPU 到 gpuId 的路径。

请注意,这是一个 DCGM_TOPOLOGY_* 值的位掩码,可以同时包含 PCIe 拓扑和 NvLink 拓扑(如果适用)。例如:0x210 = DCGM_TOPOLOGY_CPU | DCGM_TOPOLOGY_NVLINK2 使用宏 DCGM_TOPOLOGY_PATH_NVLINK 和 DCGM_TOPOLOGY_PATH_PCI 分别屏蔽 NvLink 和 PCI 路径。

unsigned int localNvLinkIds

表示连接到 gpuId 的本地链路的位,例如

如果此字段 == 3,则链路 0 和 1 已连接,仅当 GPU 之间实际存在 NVLINK 时,该字段才有效

struct dcgmGroupTopology_v1
#include <dcgm_structs.h>

组拓扑信息。

公共成员

unsigned int version

版本号 (dcgmGroupTopology_version)

unsigned long groupCpuAffinityMask[8]

组中所有 GPU 的 CPU 亲缘性掩码

1 代表与该位位置的 CPU 亲缘性,最多支持 256 个核心

unsigned int numaOptimalFlag

零值表示组中一个或多个 GPU 具有不同的 CPU 亲缘性,因此对于某些算法可能不是最佳的

dcgmGpuTopologyLevel_t slowestPath

组中 GPU 之间最慢的路径

struct dcgmIntrospectMemory_v1
#include <dcgm_structs.h>

DCGM 内存使用情况信息。

公共成员

unsigned int version

版本号 (dcgmIntrospectMemory_version)

long long bytesUsed

字节数

struct dcgmIntrospectCpuUtil_v1
#include <dcgm_structs.h>

DCGM CPU 利用率信息。

将值乘以 100 即可得到百分比。

公共成员

unsigned int version

版本号 (dcgmMetadataCpuUtil_version)

double total

设备 CPU 资源的使用比例

double kernel

设备 CPU 资源在内核模式下的使用比例

double user

设备 CPU 资源在用户模式下的使用比例

struct dcgmRunDiag_v7

公共成员

unsigned int version

此消息的版本

unsigned int flags

指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断程序用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。不能与 gpuList 同时指定。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][100]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 同时指定。

char gpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 同时指定。

char debugLogFile[128]

要使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml 格式)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码。

或逗号分隔值 (CSV) 格式的原因列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断程序的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,提前失败检查应发生的频率。

struct dcgmRunDiag_v8

公共成员

unsigned int version

此消息的版本

unsigned int flags

指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断程序用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。不能与 gpuList 同时指定。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][1050]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 同时指定。

char gpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 同时指定。

char debugLogFile[128]

要使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml 格式)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码。

或逗号分隔值 (CSV) 格式的原因列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断程序的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,提前失败检查应发生的频率。

char expectedNumEntities[50]

诊断程序将要运行的预期实体数量。

struct dcgmRunDiag_v9

公共成员

unsigned int version

此消息的版本

unsigned int flags

指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断程序用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。

不能与 entityIds 同时指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][1050]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。

不能与 groupId 或 entityIds 同时指定。

char debugLogFile[128]

要使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml 格式)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码或。

逗号分隔值 (CSV) 格式的原因列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断程序的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,提前失败检查应发生的频率。

char expectedNumEntities[50]

诊断程序将要运行的预期实体数量。

char entityIds[2048]

逗号分隔的实体 ID 列表。

不能与 groupId 同时指定。

unsigned int watchFrequency

正在监视的字段的监视频率。

struct dcgmRunDiag_v10

公共成员

unsigned int version

此消息的版本

unsigned int flags

指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断程序用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。

不能与 entityIds 同时指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][1050]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。

不能与 groupId 或 entityIds 同时指定。

char debugLogFile[128]

要使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml 格式)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码或。

逗号分隔值 (CSV) 格式的原因列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断程序的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,提前失败检查应发生的频率。

char expectedNumEntities[50]

诊断程序将要运行的预期实体数量。

char entityIds[2048]

逗号分隔的实体 ID 列表。

不能与 groupId 同时指定。

unsigned int watchFrequency

正在监视的字段的监视频率。

char ignoreErrorCodes[512]

不同实体上要忽略的错误代码字符串。

struct dcgmTopoSchedHint_v1

公共成员

unsigned int version

此消息的版本

uint64_t inputGpuIds

要从中选择的 GPU ID 的位掩码

uint32_t numGpus

DCGM 应选择的 GPU 数量

uint64_t hintFlags

用于忽略调度提示的某些因素的提示。

struct dcgmNvLinkGpuLinkStatus_v1
#include <dcgm_structs.h>

GPU 的 NvLink 链路状态。

公共成员

dcgm_field_eid_t entityId

GPU 的实体 ID (gpuId)

dcgmNvLinkLinkState_t linkState[6]

每个 GPU 的链路状态。

struct dcgmNvLinkGpuLinkStatus_v2

公共成员

dcgm_field_eid_t entityId

GPU 的实体 ID (gpuId)

dcgmNvLinkLinkState_t linkState[12]

每个 GPU 的链路状态。

struct dcgmNvLinkGpuLinkStatus_v3

公共成员

dcgm_field_eid_t entityId

GPU 的实体 ID (gpuId)

dcgmNvLinkLinkState_t linkState[18]

每个 GPU 的链路状态。

struct dcgmNvLinkNvSwitchLinkStatus_t
#include <dcgm_structs.h>

NvSwitch 的 NvLink 链路状态。

公共成员

dcgm_field_eid_t entityId

NvSwitch 的实体 ID (physicalId)

dcgmNvLinkLinkState_t linkState[256]

每个 NvSwitch 的链路状态。

struct dcgmNvLinkStatus_v4
#include <dcgm_structs.h>

给定系统中所有 NvLink 的状态。

公共成员

unsigned int version

此请求的版本。应为 dcgmNvLinkStatus_version1。

unsigned int numGpus

gpus[] 中已填充条目的数量。

dcgmNvLinkGpuLinkStatus_v3 gpus[32]

每个 GPU 的 NvLink 链路状态。

unsigned int numNvSwitches

nvSwitches[] 中已填充条目的数量。

dcgmNvLinkNvSwitchLinkStatus_t nvSwitches[12]

每个 NvSwitch 的链路状态。

struct dcgmSummaryResponse_t

公共成员

unsigned int fieldType

已汇总的字段类型 (int64 或 fp64)

unsigned int summaryCount

values 中已填充的摘要数量

union dcgmSummaryResponse_t::[anonymous] values[7]

用于存储每个摘要值的数组。

摘要按顺序存储。例如,如果请求了 MIN 和 MAX,则 0 将为 MIN,1 将为 MAX。如果请求了 AVG 和 DIFF,则 AVG 将为 0,1 将为 DIFF

struct dcgmFieldSummaryRequest_v1

公共成员

unsigned int version

此消息的版本 - dcgmFieldSummaryRequest_v1

unsigned short fieldId

要汇总的字段 ID

dcgm_field_entity_group_t entityGroupId

我们正在获取其字段的实体的类型

dcgm_field_eid_t entityId

此实体的序号 ID

uint32_t summaryTypeMask

DCGM_SUMMARY_* 的位掩码,请求的摘要

uint64_t startTime

要汇总的时间间隔的开始时间。

0 表示使用之前的任何数据。

uint64_t endTime

要汇总的时间间隔的结束时间。

0 表示使用之后的任何数据。

dcgmSummaryResponse_t response

此请求的响应数据

struct dcgmModuleGetStatusesModule_t
#include <dcgm_structs.h>

主机引擎的所有模块的状态。

公共成员

dcgmModuleId_t id

此模块的 ID。

dcgmModuleStatus_t status

此模块的状态。

struct dcgmModuleGetStatuses_v1

公共成员

unsigned int version

此请求的版本。应为 dcgmModuleGetStatuses_version1。

unsigned int numStatuses

statuses[] 中已填充条目的数量。

dcgmModuleGetStatusesModule_t statuses[16]

每个模块的状态信息。

struct dcgmStartEmbeddedV2Params_v1
#include <dcgm_structs.h>

dcgmStartEmbedded_v2 的选项。

在 DCGM 2.0.0 中添加

公共成员

unsigned int version

版本号。使用 dcgmStartEmbeddedV2Params_version1

dcgmOperationMode_t opMode

IN: 当用户请求时自动或手动收集数据。

dcgmHandle_t dcgmHandle

OUT: 用于 API 调用的 DCGM 句柄

const char *logFile

IN: DCGM 应记录到的文件。 NULL = 不记录。“-” = stdout

DcgmLoggingSeverity_t severity

IN: DCGM 应记录到 logFile 的严重级别

unsigned int denyListCount

IN: denyList[] 中的模块数

struct dcgmStartEmbeddedV2Params_v2
#include <dcgm_structs.h>

dcgmStartEmbeddedV2Params_v2 的选项。

在 DCGM 2.4.0 中添加,在 3.0.0 中重命名成员

公共成员

unsigned int version

版本号。使用 dcgmStartEmbeddedV2Params_version2

dcgmOperationMode_t opMode

IN: 当用户请求时自动或手动收集数据。

dcgmHandle_t dcgmHandle

OUT: 用于 API 调用的 DCGM 句柄

const char *logFile

IN: DCGM 应记录到的文件。 NULL = 不记录。“-” = stdout

DcgmLoggingSeverity_t severity

IN: DCGM 应记录到 logFile 的严重级别

unsigned int denyListCount

IN: 要添加到 denyList[] 拒绝列表中的模块数量

const char *serviceAccount

IN: 用于非特权进程的服务帐户

unsigned int denyList[DcgmModuleIdCount]

IN: 要添加到拒绝列表的模块 ID

struct dcgmProfMetricGroupInfo_v2
#include <dcgm_structs.h>

用于返回给定 groupId 可用的所有性能分析指标组的结构体。

公共成员

unsigned short majorId

此指标组的主 ID。

具有相同 majorId 的指标组不能与具有相同 majorId 的其他指标组同时被监视

unsigned short minorId

此指标组的次 ID。

这区分了同一主要指标组内的不同指标组

unsigned int numFieldIds

在 fieldIds[] 中填充的字段 ID 数量。

unsigned short fieldIds[64]

属于此性能分析的 DCGM 字段 ID。

组。 有关详细信息,请参阅 dcgm_fields.h 中的 DCGM_FI_PROF_* 定义。

struct dcgmProfGetMetricGroups_v3

输入参数

unsigned int version

此请求的版本。 应为 dcgmProfGetMetricGroups_version。

unsigned int unused

目前未使用。 设置为 0。

unsigned int gpuId

我们应该获取指标组的 GPU ID。

输出

unsigned int numMetricGroups

metricGroups[] 中已填充条目的数量。

dcgmProfMetricGroupInfo_v2 metricGroups[10]

每个指标组的信息。

struct dcgmSettingsSetLoggingSeverity_v1
#include <dcgm_structs.h>

dcgmSettingsSetLoggingSeverity_t 的版本 1。

struct dcgmSettingsSetLoggingSeverity_v2
#include <dcgm_structs.h>

dcgmSettingsSetLoggingSeverity_t 的版本 2。

struct dcgmVersionInfo_v2
#include <dcgm_structs.h>

用于描述 DCGM 构建环境版本 2.0 的结构体。

公共成员

char rawBuildInfoString[256 * 2]

DCGM 构建信息的原始形式。

可能有多个键值对,用分号 (;) 分隔。

每对键值对用冒号 (:) 分隔。 只有第一个冒号被视为分隔符。

值可以包含冒号字符。 值和键不能包含分号字符。

通常定义的键是

version : DCGM 版本。arch : 目标 DCGM 架构。buildid : 构建 ID。 通常是一个序列号。commit : 提交 ID(通常是 git 提交哈希值)。author : 上述提交的作者。branch : 分支(通常是用于构建的 git 分支)。buildtype : 构建类型。builddate : 构建日期。buildplatform : 构建平台。

任何或所有键都可能不存在。

这些值仅供参考,不应参与任何复杂的逻辑。