数据结构
- group dcgmStructs
未命名组
-
DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"
用于运行 GPU 诊断的标志选项。
-
DCGM_RUN_FLAGS_VERBOSE 0x0001
以详细模式输出;包括信息以及警告。
-
DCGM_RUN_FLAGS_STATSONFAIL 0x0002
仅在失败时输出统计信息。
-
DCGM_RUN_FLAGS_TRAIN 0x0004
未使用 训练 DCGM 诊断并输出包含黄金值的配置文件。
-
DCGM_RUN_FLAGS_FORCE_TRAIN 0x0008
未使用 忽略针对训练诊断的警告并强制训练。
-
DCGM_RUN_FLAGS_FAIL_EARLY 0x0010
为目标压力测试、目标功耗测试、SM 压力测试和诊断测试启用提前失败检查。
未命名组
-
DCGM_TOPO_HINT_F_NONE 0x00000000
用于 dcgmSelectGpusByTopology() 的拓扑提示
未指定任何提示
-
DCGM_TOPO_HINT_F_IGNOREHEALTH 0x00000001
在为作业执行选择 GPU 时,忽略 GPU 的健康状况。
默认情况下,仅考虑健康的 GPU。
定义
-
dcgmConnectV2Params_version1 MAKE_DCGM_VERSION(dcgmConnectV2Params_v1, 1)
dcgmConnectV2Params_v1 的版本 1。
-
dcgmConnectV2Params_version2 MAKE_DCGM_VERSION(dcgmConnectV2Params_v2, 2)
dcgmConnectV2Params_v2 的版本 2。
-
dcgmConnectV2Params_version dcgmConnectV2Params_version2
dcgmConnectV2Params_t 的最新版本。
-
dcgmHostengineHealth_version1 MAKE_DCGM_VERSION(dcgmHostengineHealth_v1, 1)
-
dcgmHostengineHealth_version dcgmHostengineHealth_version1
dcgmHostengineHealth_t 的最新版本。
-
dcgmGroupInfo_version2 MAKE_DCGM_VERSION(dcgmGroupInfo_v2, 2)
dcgmGroupInfo_v2 的版本 2。
-
dcgmGroupInfo_version3 MAKE_DCGM_VERSION(dcgmGroupInfo_v3, 3)
dcgmGroupInfo_v3 的版本 3。
-
dcgmGroupInfo_version dcgmGroupInfo_version3
dcgmGroupInfo_t 的最新版本。
-
DCGM_MAX_INSTANCES_PER_GPU 8
-
DCGM_MAX_COMPUTE_INSTANCES_PER_GPU DCGM_MAX_INSTANCES_PER_GPU
-
DCGM_MAX_TOTAL_INSTANCES_PER_GPU 14
-
DCGM_MAX_HIERARCHY_INFO DCGM_MAX_NUM_DEVICES *DCGM_MAX_TOTAL_INSTANCES_PER_GPU
-
DCGM_MAX_INSTANCES DCGM_MAX_NUM_DEVICES *DCGM_MAX_INSTANCES_PER_GPU
-
DCGM_MAX_COMPUTE_INSTANCES DCGM_MAX_INSTANCES
-
dcgmMigHierarchy_version2 MAKE_DCGM_VERSION(dcgmMigHierarchy_v2, 2)
-
dcgmMigHierarchy_version dcgmMigHierarchy_version2
-
DCGM_CPU_CORE_BITMASK_COUNT_V1 (DCGM_MAX_NUM_CPU_CORES / sizeof(uint64_t) / CHAR_BIT)
位掩码,指示此 CPU 拥有的内核。
-
dcgmCpuHierarchyOwnedCores_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchyOwnedCores_v1, 1)
-
dcgmCpuHierarchy_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v1, 1)
dcgmCpuHierarchy_t 的版本 1。
-
dcgmCpuHierarchy_version2 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v2, 2)
dcgmCpuHierarchy_t 的版本 2。
-
dcgmCpuHierarchy_version dcgmCpuHierarchy_version2
dcgmCpuHierarchy_t 的最新版本。
-
DCGM_MAX_NUM_FIELD_GROUPS 64
可以存在的字段组的最大数量。
-
DCGM_MAX_FIELD_IDS_PER_FIELD_GROUP 128
单个字段组中可以包含的最大字段 ID 数量。
-
dcgmFieldGroupInfo_version1 MAKE_DCGM_VERSION(dcgmFieldGroupInfo_v1, 1)
dcgmFieldGroupInfo_v1 的版本 1。
-
dcgmFieldGroupInfo_version dcgmFieldGroupInfo_version1
dcgmFieldGroupInfo_t 的最新版本。
-
dcgmAllFieldGroup_version1 MAKE_DCGM_VERSION(dcgmAllFieldGroup_v1, 1)
dcgmAllFieldGroup_v1 的版本 1。
-
dcgmAllFieldGroup_version dcgmAllFieldGroup_version1
dcgmAllFieldGroup_t 的最新版本。
-
dcgmClockSet_version1 MAKE_DCGM_VERSION(dcgmClockSet_v1, 1)
dcgmClockSet_v1 的版本 1。
-
dcgmClockSet_version dcgmClockSet_version1
dcgmClockSet_t 的最新版本。
-
dcgmDeviceSupportedClockSets_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedClockSets_v1, 1)
-
dcgmDeviceSupportedClockSets_version dcgmDeviceSupportedClockSets_version1
-
dcgmDevicePidAccountingStats_version1 MAKE_DCGM_VERSION(dcgmDevicePidAccountingStats_v1, 1)
-
dcgmDevicePidAccountingStats_version dcgmDevicePidAccountingStats_version1
-
dcgmDeviceThermals_version1 MAKE_DCGM_VERSION(dcgmDeviceThermals_v1, 1)
dcgmDeviceThermals_v1 的版本 1。
-
dcgmDeviceThermals_version dcgmDeviceThermals_version1
dcgmDeviceThermals_t 的最新版本。
-
dcgmDevicePowerLimits_version1 MAKE_DCGM_VERSION(dcgmDevicePowerLimits_v1, 1)
dcgmDevicePowerLimits_v1 的版本 1。
-
dcgmDevicePowerLimits_version dcgmDevicePowerLimits_version1
dcgmDevicePowerLimits_t 的最新版本。
-
dcgmDeviceIdentifiers_version1 MAKE_DCGM_VERSION(dcgmDeviceIdentifiers_v1, 1)
dcgmDeviceIdentifiers_v1 的版本 1。
-
dcgmDeviceIdentifiers_version dcgmDeviceIdentifiers_version1
dcgmDeviceIdentifiers_t 的最新版本。
-
dcgmDeviceMemoryUsage_version1 MAKE_DCGM_VERSION(dcgmDeviceMemoryUsage_v1, 1)
dcgmDeviceMemoryUsage_v1 的版本 1。
-
dcgmDeviceMemoryUsage_version dcgmDeviceMemoryUsage_version1
dcgmDeviceMemoryUsage_t 的最新版本。
-
dcgmDeviceVgpuUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuUtilInfo_v1, 1)
dcgmDeviceVgpuUtilInfo_v1 的版本 1。
-
dcgmDeviceVgpuUtilInfo_version dcgmDeviceVgpuUtilInfo_version1
dcgmDeviceVgpuUtilInfo_t 的最新版本。
-
dcgmDeviceEncStats_version1 MAKE_DCGM_VERSION(dcgmDeviceEncStats_v1, 1)
dcgmDeviceEncStats_v1 的版本 1。
-
dcgmDeviceEncStats_version dcgmDeviceEncStats_version1
dcgmDeviceEncStats_t 的最新版本。
-
dcgmDeviceFbcStats_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcStats_v1, 1)
dcgmDeviceFbcStats_v1 的版本 1。
-
dcgmDeviceFbcStats_version dcgmDeviceFbcStats_version1
dcgmDeviceEncStats_t 的最新版本。
-
dcgmDeviceFbcSessionInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcSessionInfo_v1, 1)
dcgmDeviceFbcSessionInfo_v1 的版本 1。
-
dcgmDeviceFbcSessionInfo_version dcgmDeviceFbcSessionInfo_version1
dcgmDeviceFbcSessionInfo_t 的最新版本。
-
dcgmDeviceFbcSessions_version1 MAKE_DCGM_VERSION(dcgmDeviceFbcSessions_v1, 1)
dcgmDeviceFbcSessions_v1 的版本 1。
-
dcgmDeviceFbcSessions_version dcgmDeviceFbcSessions_version1
dcgmDeviceFbcSessions_t 的最新版本。
-
dcgmDeviceVgpuEncSessions_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuEncSessions_v1, 1)
dcgmDeviceVgpuEncSessions_v1 的版本 1。
-
dcgmDeviceVgpuEncSessions_version dcgmDeviceVgpuEncSessions_version1
dcgmDeviceVgpuEncSessions_t 的最新版本。
-
dcgmDeviceVgpuProcessUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuProcessUtilInfo_v1, 1)
dcgmDeviceVgpuProcessUtilInfo_v1 的版本 1。
-
dcgmDeviceVgpuProcessUtilInfo_version dcgmDeviceVgpuProcessUtilInfo_version1
dcgmDeviceVgpuProcessUtilInfo_t 的最新版本。
-
dcgmDeviceVgpuTypeInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuTypeInfo_v1, 1)
dcgmDeviceVgpuTypeInfo_v1 的版本 1。
-
dcgmDeviceVgpuTypeInfo_version2 MAKE_DCGM_VERSION(dcgmDeviceVgpuTypeInfo_v2, 2)
dcgmDeviceVgpuTypeInfo_v2 的版本 2。
-
dcgmDeviceVgpuTypeInfo_version dcgmDeviceVgpuTypeInfo_version2
dcgmDeviceVgpuTypeInfo_t 的最新版本。
-
dcgmDeviceSupportedVgpuTypeInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedVgpuTypeInfo_v1, 1)
dcgmDeviceSupportedVgpuTypeInfo_v1 的版本 1。
-
dcgmDeviceSupportedVgpuTypeInfo_version dcgmDeviceSupportedVgpuTypeInfo_version1
dcgmDeviceSupportedVgpuTypeInfo_t 的最新版本。
-
dcgmDeviceSettings_version2 MAKE_DCGM_VERSION(dcgmDeviceSettings_v2, 2)
-
dcgmDeviceSettings_version dcgmDeviceSettings_version2
-
dcgmDeviceAttributes_version3 MAKE_DCGM_VERSION(dcgmDeviceAttributes_v3, 3)
dcgmDeviceAttributes_v3 的版本 3。
-
dcgmDeviceAttributes_version dcgmDeviceAttributes_version3
dcgmDeviceAttributes_t 的最新版本。
-
dcgmDeviceMigAttributesInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceMigAttributesInfo_v1, 1)
dcgmDeviceMigAttributesInfo_v1 的版本 1。
-
dcgmDeviceMigAttributesInfo_version dcgmDeviceMigAttributesInfo_version1
dcgmDeviceMigAttributesInfo_t 的最新版本。
-
dcgmDeviceMigAttributes_version1 MAKE_DCGM_VERSION(dcgmDeviceMigAttributes_v1, 1)
dcgmDeviceMigAttributes_v1 的版本 1。
-
dcgmDeviceMigAttributes_version dcgmDeviceMigAttributes_version1
dcgmDeviceMigAttributes_t 的最新版本。
-
dcgmGpuInstanceProfileInfo_version1 MAKE_DCGM_VERSION(dcgmGpuInstanceProfileInfo_v1, 1)
dcgmGpuInstanceProfileInfo_v1 的版本 1。
-
dcgmGpuInstanceProfileInfo_version dcgmGpuInstanceProfileInfo_version1
dcgmGpuInstanceProfileInfo_t 的最新版本。
-
dcgmGpuInstanceProfiles_version1 MAKE_DCGM_VERSION(dcgmGpuInstanceProfiles_v1, 1)
dcgmGpuInstanceProfiles_v1 的版本 1。
-
dcgmGpuInstanceProfiles_version dcgmGpuInstanceProfiles_version1
dcgmGpuInstanceProfiles_t 的最新版本。
-
dcgmComputeInstanceProfileInfo_version1 MAKE_DCGM_VERSION(dcgmComputeInstanceProfileInfo_v1, 1)
dcgmComputeInstanceProfileInfo_v1 的版本 1。
-
dcgmComputeInstanceProfileInfo_version dcgmComputeInstanceProfileInfo_version1
dcgmComputeInstanceProfileInfo_t 的最新版本。
-
dcgmComputeInstanceProfiles_version1 MAKE_DCGM_VERSION(dcgmComputeInstanceProfiles_v1, 1)
dcgmComputeInstanceProfiles_v1 的版本 1。
-
dcgmComputeInstanceProfiles_version dcgmComputeInstanceProfiles_version1
dcgmComputeInstanceProfiles_t 的最新版本。
-
DCGM_MAX_VGPU_TYPES_PER_PGPU 32
每个物理 GPU 的最大 vGPU 类型数量。
-
DCGM_DEVICE_UUID_BUFFER_SIZE 80
表示保存与 vGPU 实例特定属性相关的字符串的缓冲区大小。
-
DCGM_POWER_PROFILE_ARRAY_SIZE 8
工作负载功耗配置文件信息。
-
DCGM_POWER_PROFILE_MASK_BITS_PER_ELEM 32
-
DCGM_POWER_PROFILE_MAX_NUM (255)
-
dcgmWorkloadPowerProfileInfo_version1 MAKE_DCGM_VERSION(dcgmWorkloadPowerProfileInfo_v1, 1)
-
dcgmWorkloadPowerProfileInfo_version dcgmWorkloadPowerProfileInfo_version1
-
dcgmWorkloadPowerProfileProfilesInfo_version1 MAKE_DCGM_VERSION(dcgmWorkloadPowerProfileProfilesInfo_v1, 1)
-
dcgmWorkloadPowerProfileProfilesInfo_version dcgmWorkloadPowerProfileProfilesInfo_version1
-
dcgmDeviceWorkloadPowerProfilesStatus_version1 MAKE_DCGM_VERSION(dcgmDeviceWorkloadPowerProfilesStatus_v1, 1)
-
dcgmDeviceWorkloadPowerProfilesStatus_version dcgmDeviceWorkloadPowerProfilesStatus_version1
-
dcgmConfig_version1 MAKE_DCGM_VERSION(dcgmConfig_v1, 1)
dcgmConfig_v1 的版本 1。
-
dcgmConfig_version2 MAKE_DCGM_VERSION(dcgmConfig_v2, 2)
-
dcgmConfig_version dcgmConfig_version2
dcgmConfig_t 的最新版本。
-
dcgmPolicyViolation_version1 MAKE_DCGM_VERSION(dcgmPolicyViolation_v1, 1)
-
dcgmPolicyViolation_version dcgmPolicyViolation_version1
-
DCGM_POLICY_COND_IDX_MAX 7
-
DCGM_POLICY_COND_MAX DCGM_POLICY_COND_IDX_MAX
-
dcgmPolicy_version1 MAKE_DCGM_VERSION(dcgmPolicy_v1, 1)
dcgmPolicy_v1 的版本 1。
-
dcgmPolicy_version dcgmPolicy_version1
dcgmPolicy_t 的最新版本。
-
dcgmPolicyCallbackResponse_version2 MAKE_DCGM_VERSION(dcgmPolicyCallbackResponse_v2, 2)
dcgmPolicyCallbackResponse_v2 的版本 2。
-
dcgmPolicyCallbackResponse_version dcgmPolicyCallbackResponse_version2
dcgmPolicyCallbackResponse_t 的最新版本。
-
DCGM_MAX_BLOB_LENGTH 4096
设置最大 blob 条目之上的大小。
-
dcgmFieldValue_version1 MAKE_DCGM_VERSION(dcgmFieldValue_v1, 1)
dcgmFieldValue_v1 的版本 1。
-
dcgmFieldValue_version2 MAKE_DCGM_VERSION(dcgmFieldValue_v2, 2)
dcgmFieldValue_v2 的版本 2。
-
DCGM_FV_FLAG_LIVE_DATA 0x00000001
字段值标志由 dcgmEntitiesGetLatestValues 使用。
从驱动程序而不是缓存数据中检索实时数据。警告:设置此标志将导致多次调用 NVIDIA 驱动程序,这将比检索缓存值慢得多。
-
DCGM_HEALTH_WATCH_COUNT_V1 10
用于迭代 dcgmHealthSystems_v1 枚举
-
DCGM_HEALTH_WATCH_COUNT_V2 12
用于迭代 dcgmHealthSystems_v2 枚举
-
DCGM_ERR_MSG_LENGTH 512
-
DCGM_DIAG_AUX_DATA_LEN 2048
-
dcgmDiagTestAuxData_version1 MAKE_DCGM_VERSION(dcgmDiagTestAuxData_v1, 1)
dcgmDiagTestAuxData_v1 的版本 1。
-
dcgmDiagTestAuxData_version dcgmDiagTestAuxData_version1
-
DCGM_DIAG_TEST_RUN_ERROR_INDICES_MAX 32
可以报告的每个实体的最大错误数。
-
DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX 16
可以报告的每个实体的最大信息消息数。
-
DCGM_DIAG_TEST_RUN_RESULTS_MAX DCGM_GROUP_MAX_ENTITIES_V2
可以报告的每个实体的最大结果数。
-
DCGM_DIAG_TEST_RUN_NAME_LEN 32
用于名称的最大字符数(包括“\0”)。
-
DCGM_DEVICE_ID_LEN 5
SKU 设备 ID(字符串)
-
DCGM_VERSION_LEN 12
DCGM 版本(字符串)
-
DCGM_HEALTH_WATCH_MAX_INCIDENTS_V2 DCGM_GROUP_MAX_ENTITIES_V2
-
dcgmHealthResponse_version5 MAKE_DCGM_VERSION(dcgmHealthResponse_v5, 5)
dcgmHealthResponse_v5 的版本 5。
-
dcgmHealthResponse_version dcgmHealthResponse_version5
dcgmHealthResponse_t 的最新版本。
-
dcgmHealthSetParams_version2 MAKE_DCGM_VERSION(dcgmHealthSetParams_v2, 2)
dcgmHealthSet_v2 的版本 2。
-
DCGM_MAX_PID_INFO_NUM 16
-
dcgmPidInfo_version2 MAKE_DCGM_VERSION(dcgmPidInfo_v2, 2)
dcgmPidInfo_v2 的版本 2。
-
dcgmPidInfo_version dcgmPidInfo_version2
dcgmPidInfo_t 的最新版本。
-
dcgmJobInfo_version3 MAKE_DCGM_VERSION(dcgmJobInfo_v3, 3)
dcgmJobInfo_v3 的版本 3。
-
dcgmJobInfo_version dcgmJobInfo_version3
dcgmJobInfo_t 的最新版本。
-
dcgmRunningProcess_version1 MAKE_DCGM_VERSION(dcgmRunningProcess_v1, 1)
dcgmRunningProcess_v1 的版本 1。
-
dcgmRunningProcess_version dcgmRunningProcess_version1
dcgmRunningProcess_t 的最新版本。
-
DCGM_MAX_ERRORS 5
-
DCGM_SM_PERF_INDEX DCGM_SM_STRESS_INDEX
-
DCGM_TARGETED_PERF_INDEX DCGM_TARGETED_PERF_INDEX
-
DCGM_PER_GPU_TEST_COUNT_V8 13
-
DCGM_PER_GPU_TEST_COUNT_V7 9
-
DCGM_SWTEST_COUNT 11
-
LEVEL_ONE_MAX_RESULTS 16
-
DCGM_DIAG_RESPONSE_TESTS_MAX 20
可以返回结果的插件的最大数量。
-
DCGM_DIAG_RESPONSE_SYSTEM_ERROR DCGM_INT8_BLANK
用于将错误标记为系统错误。
-
DCGM_DIAG_RESPONSE_ERRORS_MAX DCGM_DIAG_TEST_RUN_ERROR_INDICES_MAX
可以报告的最大错误数。
这必须与 DCGM_DIAG_PLUGINRUN_ERROR_INDICES_MAX 匹配。
-
DCGM_DIAG_RESPONSE_INFO_MAX DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX
可以报告的最大信息消息数。
这必须与 DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX 匹配。
-
DCGM_DIAG_RESPONSE_ENTITIES_MAX DCGM_GROUP_MAX_ENTITIES_V2
可以报告的最大实体数。
-
DCGM_DIAG_RESPONSE_RESULTS_MAX (DCGM_DIAG_RESPONSE_TESTS_MAX
\
*
DCGM_DIAG_RESPONSE_ENTITIES_MAX) 可以报告的最大结果数。
-
DCGM_DIAG_RESPONSE_CATEGORIES_MAX 5
部署 | 硬件 | 集成 | 压力 测试之一。
-
DCGM_DIAG_RESPONSE_CATEGORY_LEN 20
每个类别的字节数(包括 ‘\0’)。
-
DCGM_DIAG_RESPONSE_V11_UNUSED_LEN 682880
diagResponse_v11 中未使用的字节,用于与 v10 及更早版本兼容。
-
dcgmDiagResponse_version11 MAKE_DCGM_VERSION(dcgmDiagResponse_v11, 11)
dcgmDiagResponse_v11 的版本 11。
-
dcgmDiagResponse_version10 MAKE_DCGM_VERSION(dcgmDiagResponse_v10, 10)
dcgmDiagResponse_v11 的版本 10。
-
dcgmDiagResponse_version9 MAKE_DCGM_VERSION(dcgmDiagResponse_v9, 9)
dcgmDiagResponse_v9 的版本 9。
-
dcgmDiagResponse_version8 MAKE_DCGM_VERSION(dcgmDiagResponse_v8, 8)
dcgmDiagResponse_v8 的版本 8。
-
dcgmDiagResponse_version7 MAKE_DCGM_VERSION(dcgmDiagResponse_v7, 7)
dcgmDiagResponse_v7 的版本 7。
-
dcgmDiagResponse_version dcgmDiagResponse_version11
dcgmDiagResponse_t 的最新版本。
-
dcgmDiagStatus_version1 MAKE_DCGM_VERSION(dcgmDiagStatus_v1, 1)
dcgmDiagStatus_v1 的版本 1。
-
dcgmDiagStatus_version dcgmDiagStatus_version1
dcgmDiagStatus_t 的最新版本。
-
DCGM_TOPOLOGY_PATH_PCI(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFF)
-
DCGM_TOPOLOGY_PATH_NVLINK(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFFFFFF00)
-
DCGM_AFFINITY_BITMASK_ARRAY_SIZE 8
-
dcgmDeviceTopology_version1 MAKE_DCGM_VERSION(dcgmDeviceTopology_v1, 1)
dcgmDeviceTopology_v1 的版本 1。
-
dcgmDeviceTopology_version dcgmDeviceTopology_version1
dcgmDeviceTopology_t 的最新版本。
-
dcgmGroupTopology_version1 MAKE_DCGM_VERSION(dcgmGroupTopology_v1, 1)
dcgmGroupTopology_v1 的版本 1。
-
dcgmGroupTopology_version dcgmGroupTopology_version1
dcgmGroupTopology_t 的最新版本。
-
dcgmIntrospectMemory_version1 MAKE_DCGM_VERSION(dcgmIntrospectMemory_v1, 1)
dcgmIntrospectMemory_t 的版本 1。
-
dcgmIntrospectMemory_version dcgmIntrospectMemory_version1
dcgmIntrospectMemory_t 的最新版本。
-
dcgmIntrospectCpuUtil_version1 MAKE_DCGM_VERSION(dcgmIntrospectCpuUtil_v1, 1)
dcgmIntrospectCpuUtil_t 的版本 1。
-
dcgmIntrospectCpuUtil_version dcgmIntrospectCpuUtil_version1
dcgmIntrospectCpuUtil_t 的最新版本。
-
DCGM_MAX_CONFIG_FILE_LEN 10000
-
DCGM_MAX_TEST_NAMES 20
-
DCGM_MAX_TEST_NAMES_LEN 50
-
DCGM_MAX_TEST_PARMS 100
-
DCGM_MAX_TEST_PARMS_LEN 100
-
DCGM_MAX_TEST_PARMS_LEN_V2 1050
-
DCGM_GPU_LIST_LEN 50
-
DCGM_ENTITY_ID_LIST_LEN 2048
-
DCGM_EXPECTED_ENTITIES_LEN 50
-
DCGM_FILE_LEN 30
-
DCGM_PATH_LEN 128
-
DCGM_CLOCKS_EVENT_MASK_LEN 50
-
DCGM_IGNORE_ERROR_MAX_LEN 512
-
DCGM_THROTTLE_MASK_LEN DCGM_CLOCKS_EVENT_MASK_LEN
-
dcgmRunDiag_version7 MAKE_DCGM_VERSION(dcgmRunDiag_v7, 7)
dcgmRunDiag_t 的版本 7。
-
dcgmRunDiag_version8 MAKE_DCGM_VERSION(dcgmRunDiag_v8, 8)
dcgmRunDiag_t 的版本 8。
-
dcgmRunDiag_version9 MAKE_DCGM_VERSION(dcgmRunDiag_v9, 9)
dcgmRunDiag_t 的版本 9。
-
dcgmRunDiag_version10 MAKE_DCGM_VERSION(dcgmRunDiag_v10, 10)
dcgmRunDiag_t 的版本 10。
-
DCGM_GEGE_FLAG_ONLY_SUPPORTED 0x00000001
dcgmGetEntityGroupEntities 的 flags 参数的标志。
仅返回 DCGM 支持的实体。 这模仿 dcgmGetAllSupportedDevices() 的行为。
-
dcgmTopoSchedHint_version1 MAKE_DCGM_VERSION(dcgmTopoSchedHint_v1, 1)
-
dcgmNvLinkStatus_version4 MAKE_DCGM_VERSION(dcgmNvLinkStatus_v4, 4)
dcgmNvLinkStatus 的版本 4。
-
DCGM_SUMMARY_MIN 0x00000001
-
DCGM_SUMMARY_MAX 0x00000002
-
DCGM_SUMMARY_AVG 0x00000004
-
DCGM_SUMMARY_SUM 0x00000008
-
DCGM_SUMMARY_COUNT 0x00000010
-
DCGM_SUMMARY_INTEGRAL 0x00000020
-
DCGM_SUMMARY_DIFF 0x00000040
-
DCGM_SUMMARY_SIZE 7
-
dcgmFieldSummaryRequest_version1 MAKE_DCGM_VERSION(dcgmFieldSummaryRequest_v1, 1)
-
DCGM_MODULE_STATUSES_CAPACITY 16
-
dcgmModuleGetStatuses_version1 MAKE_DCGM_VERSION(dcgmModuleGetStatuses_v1, 1)
dcgmModuleGetStatuses 的版本 1。
-
dcgmModuleGetStatuses_version dcgmModuleGetStatuses_version1
-
dcgmStartEmbeddedV2Params_version1 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v1, 1)
Version 1 for dcgmStartEmbeddedV2Params_v1.
-
dcgmStartEmbeddedV2Params_version2 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v2, 2)
Version 2 for dcgmStartEmbeddedV2Params.
-
DCGM_PROF_MAX_NUM_GROUPS_V2 10
Maximum number of metric ID groups that can exist in DCGM.
-
DCGM_PROF_MAX_FIELD_IDS_PER_GROUP_V2 64
Maximum number of field IDs that can be in a single DCGM profiling metric group.
-
dcgmProfGetMetricGroups_version3 MAKE_DCGM_VERSION(dcgmProfGetMetricGroups_v3, 3)
Version 3 of dcgmProfGetMetricGroups_t.
Older versions are unsupported
-
dcgmProfGetMetricGroups_version dcgmProfGetMetricGroups_version3
-
dcgmSettingsSetLoggingSeverity_version1 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v1, 1)
-
dcgmSettingsSetLoggingSeverity_version2 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v2, 2)
-
dcgmSettingsSetLoggingSeverity_version dcgmSettingsSetLoggingSeverity_version2
-
dcgmVersionInfo_version2 MAKE_DCGM_VERSION(dcgmVersionInfo_v2, 2)
Version 2 of the dcgmVersionInfo_v2.
-
dcgmVersionInfo_version dcgmVersionInfo_version2
类型定义
-
typedef uintptr_t dcgmHandle_t
DCGM 句柄的标识符。
-
typedef uintptr_t dcgmGpuGrp_t
GPU 组的标识符。一个组可以包含一个或多个 GPU。
-
typedef uintptr_t dcgmFieldGrp_t
字段组的标识符。
-
typedef uintptr_t dcgmStatus_t
状态代码列表的标识符。
-
typedef struct dcgm_link_s dcgm_link_t
表示链接对象。
类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一;gpuId 或 switchID 是关联的 gpu 或交换机;index 是链接索引,从 0 开始,TX(偶数)在前,RX(奇数)在后。
-
typedef dcgmConnectV2Params_v2 dcgmConnectV2Params_t
dcgmConnectV2Params_v2 的类型定义。
-
typedef dcgmHostengineHealth_v1 dcgmHostengineHealth_t
dcgmHostengineHealth_t 的类型定义。
-
typedef dcgmGroupInfo_v3 dcgmGroupInfo_t
dcgmGroupInfo_v3 的类型定义。
-
typedef dcgmCpuHierarchyOwnedCores_v1 dcgmCpuHierarchyOwnedCores_t
-
typedef dcgmCpuHierarchy_v2 dcgmCpuHierarchy_t
-
typedef dcgmFieldGroupInfo_v1 dcgmFieldGroupInfo_t
-
typedef dcgmAllFieldGroup_v1 dcgmAllFieldGroup_t
-
typedef dcgmClockSet_v1 dcgmClockSet_t
dcgmClockSet_v1 的类型定义。
-
typedef dcgmDeviceSupportedClockSets_v1 dcgmDeviceSupportedClockSets_t
-
typedef dcgmDevicePidAccountingStats_v1 dcgmDevicePidAccountingStats_t
-
typedef dcgmDeviceThermals_v1 dcgmDeviceThermals_t
dcgmDeviceThermals_v1 的类型定义。
-
typedef dcgmDevicePowerLimits_v1 dcgmDevicePowerLimits_t
dcgmDevicePowerLimits_v1 的类型定义。
-
typedef dcgmDeviceIdentifiers_v1 dcgmDeviceIdentifiers_t
dcgmDeviceIdentifiers_v1 的类型定义。
-
typedef dcgmDeviceMemoryUsage_v1 dcgmDeviceMemoryUsage_t
dcgmDeviceMemoryUsage_v1 的类型定义。
-
typedef dcgmDeviceVgpuUtilInfo_v1 dcgmDeviceVgpuUtilInfo_t
dcgmDeviceVgpuUtilInfo_v1 的类型定义。
-
typedef dcgmDeviceEncStats_v1 dcgmDeviceEncStats_t
dcgmDeviceEncStats_v1 的类型定义。
-
typedef dcgmDeviceFbcStats_v1 dcgmDeviceFbcStats_t
dcgmDeviceFbcStats_v1 的类型定义。
-
typedef enum dcgmFBCSessionType_enum dcgmFBCSessionType_t
-
typedef dcgmDeviceFbcSessionInfo_v1 dcgmDeviceFbcSessionInfo_t
dcgmDeviceFbcSessionInfo_v1 的类型定义。
-
typedef dcgmDeviceFbcSessions_v1 dcgmDeviceFbcSessions_t
dcgmDeviceFbcSessions_v1 的类型定义。
-
typedef enum dcgmEncoderQueryType_enum dcgmEncoderType_t
-
typedef dcgmDeviceVgpuEncSessions_v1 dcgmDeviceVgpuEncSessions_t
dcgmDeviceVgpuEncSessions_v1 的类型定义。
-
typedef dcgmDeviceVgpuProcessUtilInfo_v1 dcgmDeviceVgpuProcessUtilInfo_t
-
typedef dcgmDeviceVgpuTypeInfo_v2 dcgmDeviceVgpuTypeInfo_t
dcgmDeviceVgpuTypeInfo_v2 的类型定义。
-
typedef dcgmDeviceSupportedVgpuTypeInfo_v1 dcgmDeviceSupportedVgpuTypeInfo_t
-
typedef dcgmDeviceSettings_v2 dcgmDeviceSettings_t
-
typedef dcgmDeviceAttributes_v3 dcgmDeviceAttributes_t
dcgmDeviceAttributes_v3 的类型定义。
-
typedef dcgmDeviceMigAttributesInfo_v1 dcgmDeviceMigAttributesInfo_t
-
typedef dcgmDeviceMigAttributes_v1 dcgmDeviceMigAttributes_t
dcgmDeviceMigAttributes_v1 的类型定义。
-
typedef dcgmGpuInstanceProfileInfo_v1 dcgmGpuInstanceProfileInfo_t
-
typedef dcgmGpuInstanceProfiles_v1 dcgmGpuInstanceProfiles_t
dcgmGpuInstanceProfiles_v1 的类型定义。
-
typedef dcgmComputeInstanceProfileInfo_v1 dcgmComputeInstanceProfileInfo_t
-
typedef dcgmComputeInstanceProfiles_v1 dcgmComputeInstanceProfiles_t
-
typedef dcgmWorkloadPowerProfileInfo_v1 dcgmWorkloadPowerProfileInfo_t
-
typedef dcgmWorkloadPowerProfileProfilesInfo_v1 dcgmWorkloadPowerProfileProfilesInfo_t
-
typedef dcgmDeviceWorkloadPowerProfilesStatus_v1 dcgmDeviceWorkloadPowerProfilesStatus_t
-
typedef dcgmConfig_v2 dcgmConfig_t
dcgmConfig_v1 的类型定义。
-
typedef dcgmPolicyViolation_v1 dcgmPolicyViolation_t
-
typedef enum dcgmPolicyConditionIdx_enum dcgmPolicyConditionIdx_t
策略条件的枚举。
当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值
-
typedef enum dcgmPolicyCondition_enum dcgmPolicyCondition_t
策略条件的位掩码枚举。
当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值
-
typedef struct dcgmPolicyConditionParams_st dcgmPolicyConditionParams_t
策略条件参数的结构体。
此结构体包含一个标签,表示传递的值的类型,以及一个 “val”,它是可能值类型的联合。例如,要传递一个真布尔值:tag = BOOL,val.boolean = 1。
-
typedef enum dcgmPolicyMode_enum dcgmPolicyMode_t
策略模式的枚举。
-
typedef enum dcgmPolicyIsolation_enum dcgmPolicyIsolation_t
策略隔离模式的枚举。
-
typedef enum dcgmPolicyAction_enum dcgmPolicyAction_t
策略动作的枚举。
-
typedef enum dcgmPolicyValidation_enum dcgmPolicyValidation_t
策略验证动作的枚举。
-
typedef enum dcgmPolicyFailureResp_enum dcgmPolicyFailureResp_t
策略失败响应的枚举。
-
typedef dcgmPolicy_v1 dcgmPolicy_t
dcgmPolicy_v1 的类型定义。
-
typedef dcgmPolicyCallbackResponse_v2 dcgmPolicyCallbackResponse_t
dcgmPolicyCallbackResponse_v2 的类型定义。
-
typedef int (*fpRecvUpdates)(dcgmPolicyCallbackResponse_t *response, uint64_t userData)
表示用于接收来自异步函数更新的回调函数。
当前唯一实现的回调函数是 dcgmPolicyRegister_v2。
-
typedef int (*dcgmFieldValueEnumeration_f)(unsigned int gpuId, dcgmFieldValue_v1 *values, int numValues, void *userData)
用于处理一个或多个字段更新的用户回调函数。
此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改
- Param gpuId:
IN: 此字段值集所属的 GPU 的 GPU ID
- Param values:
IN: 字段值。这些值必须被复制,因为它们将在本次调用返回后立即销毁。
- Param numValues:
IN: values[] 中有效的条目数
- Param userData:
IN: 传递给生成此回调的更新函数的用户数据指针
- Return:
如果 OK 返回 0,如果枚举应停止则返回 <0。这允许被调用者中止字段值枚举。
-
typedef int (*dcgmFieldValueEntityEnumeration_f)(dcgm_field_entity_group_t entityGroupId, dcgm_field_eid_t entityId,dcgmFieldValue_v1 *values, int numValues, void *userData)
用于处理一个或多个字段更新的用户回调函数。
此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改
- Param entityGroupId:
IN: 此字段值集所属实体的 entityGroup
- Param entityId:
IN: 此字段值集所属的实体
- Param values:
IN: 字段值。这些值必须被复制,因为它们将在本次调用返回后立即销毁。
- Param numValues:
IN: values[] 中有效的条目数
- Param userData:
IN: 传递给生成此回调的更新函数的用户数据指针
- Return:
如果 OK 返回 0,如果枚举应停止则返回 <0。这允许被调用者中止字段值枚举。
-
typedef enum dcgmHealthSystems_enum dcgmHealthSystems_t
用于启用或禁用健康监控系统的系统结构。
-
typedef enum dcgmHealthWatchResult_enum dcgmHealthWatchResults_t
健康监控测试结果。
-
typedef enum dcgmDiagResult_enum dcgmDiagResult_t
诊断测试结果。
-
typedef dcgmHealthResponse_v5 dcgmHealthResponse_t
dcgmHealthResponse_v5 的类型定义。
-
typedef dcgmPidInfo_v2 dcgmPidInfo_t
dcgmPidInfo_v2 的类型定义。
-
typedef dcgmJobInfo_v3 dcgmJobInfo_t
dcgmJobInfo_v3 的类型定义。
-
typedef dcgmRunningProcess_v1 dcgmRunningProcess_t
dcgmRunningProcess_v1 的类型定义。
-
typedef enum dcgmPerGpuTestIndices_enum dcgmPerGpuTestIndices_t
每个 GPU 诊断测试 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。
-
typedef enum dcgmSoftwareTest_enum dcgmSoftwareTest_t
-
typedef dcgmDiagResponse_v11 dcgmDiagResponse_t
dcgmDiagResponse_v11 的类型定义。
-
typedef dcgmDiagStatus_v1 dcgmDiagStatus_t
-
typedef enum dcgmGpuLevel_enum dcgmGpuTopologyLevel_t
表示系统中两个 GPU 之间的级别关系。枚举值之间留有间隔,以便将来扩展关系。
这些值与 nvml.h 中的定义匹配
-
typedef dcgmDeviceTopology_v1 dcgmDeviceTopology_t
dcgmDeviceTopology_v1 的类型定义。
-
typedef dcgmGroupTopology_v1 dcgmGroupTopology_t
dcgmGroupTopology_v1 的类型定义。
-
typedef dcgmIntrospectMemory_v1 dcgmIntrospectMemory_t
dcgmIntrospectMemory_t 的类型定义。
-
typedef dcgmIntrospectCpuUtil_v1 dcgmIntrospectCpuUtil_t
dcgmIntrospectCpuUtil_t 的类型定义。
-
typedef enum dcgmGpuNVLinkErrorType_enum dcgmGpuNVLinkErrorType_t
标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。
-
typedef dcgmTopoSchedHint_v1 dcgmTopoSchedHint_t
-
typedef enum dcgmNvLinkLinkState_enum dcgmNvLinkLinkState_t
NvLink 链路状态。
-
typedef dcgmNvLinkStatus_v4 dcgmNvLinkStatus_t
-
typedef dcgmFieldSummaryRequest_v1 dcgmFieldSummaryRequest_t
-
typedef dcgmModuleGetStatuses_v1 dcgmModuleGetStatuses_t
-
typedef dcgmProfGetMetricGroups_v3 dcgmProfGetMetricGroups_t
-
typedef dcgmSettingsSetLoggingSeverity_v2 dcgmSettingsSetLoggingSeverity_t
-
typedef dcgmVersionInfo_v2 dcgmVersionInfo_t
枚举
-
enum DcgmLoggingSeverity_t
DCGM 日志记录严重级别。
这些级别与 Severity.h 中定义的 plog 严重级别相匹配。每个级别都包括其上的所有级别。例如,级别 4 也包括 3、2 和 1
值
-
enumerator DcgmLoggingSeverityUnspecified
不在意/从环境继承
-
enumerator DcgmLoggingSeverityNone
不记录日志
-
enumerator DcgmLoggingSeverityFatal
致命错误
-
enumerator DcgmLoggingSeverityError
错误
-
enumerator DcgmLoggingSeverityWarning
警告
-
enumerator DcgmLoggingSeverityInfo
信息性
-
enumerator DcgmLoggingSeverityDebug
调试信息(会生成大量日志)
-
enumerator DcgmLoggingSeverityVerbose
详细调试信息
-
enumerator DcgmLoggingSeverityUnspecified
-
enum dcgmMigProfile_t
用于不同类型 MIG 配置文件的枚举。
值
-
enumerator DcgmMigProfileNone
无配置文件(用于 GPU)
-
enumerator DcgmMigProfileGpuInstanceSlice1
GPU 实例切片 1
-
enumerator DcgmMigProfileGpuInstanceSlice2
GPU 实例切片 2
-
enumerator DcgmMigProfileGpuInstanceSlice3
GPU 实例切片 3
-
enumerator DcgmMigProfileGpuInstanceSlice4
GPU 实例切片 4
-
enumerator DcgmMigProfileGpuInstanceSlice7
GPU 实例切片 7
-
enumerator DcgmMigProfileGpuInstanceSlice8
GPU 实例切片 8
-
enumerator DcgmMigProfileGpuInstanceSlice6
GPU 实例切片 6
-
enumerator DcgmMigProfileGpuInstanceSlice1Rev1
GPU 实例切片 1 修订版 1
-
enumerator DcgmMigProfileGpuInstanceSlice2Rev1
GPU 实例切片 2 修订版 1
-
enumerator DcgmMigProfileGpuInstanceSlice1Rev2
GPU 实例切片 1 修订版 2
-
enumerator DcgmMigProfileGpuInstanceSlice1GFX
GPU 实例切片 1 GFX
-
enumerator DcgmMigProfileGpuInstanceSlice2GFX
GPU 实例切片 2 GFX
-
enumerator DcgmMigProfileGpuInstanceSlice4GFX
GPU 实例切片 4 GFX
-
enumerator DcgmMigProfileComputeInstanceSlice1
计算实例切片 1
-
enumerator DcgmMigProfileComputeInstanceSlice2
计算实例切片 2
-
enumerator DcgmMigProfileComputeInstanceSlice3
计算实例切片 3
-
enumerator DcgmMigProfileComputeInstanceSlice4
计算实例切片 4
-
enumerator DcgmMigProfileComputeInstanceSlice7
计算实例切片 7
-
enumerator DcgmMigProfileComputeInstanceSlice8
计算实例切片 8
-
enumerator DcgmMigProfileComputeInstanceSlice6
计算实例切片 6
-
enumerator DcgmMigProfileComputeInstanceSlice1Rev1
计算实例切片 1 修订版 1
-
enumerator DcgmMigProfileNone
-
enum dcgmFBCSessionType_enum
值
-
enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN
未知。
-
enumerator DCGM_FBC_SESSION_TYPE_TOSYS
用于系统缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_CUDA
用于 CUDA 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_VID
用于 Vid 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_HWENC
用于 NVENC HW 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN
-
enum dcgmEncoderQueryType_enum
值
-
enumerator DCGM_ENCODER_QUERY_H264
-
enumerator DCGM_ENCODER_QUERY_HEVC
-
enumerator DCGM_ENCODER_QUERY_H264
-
enum dcgmPowerProfileType_t
值
-
enumerator DCGM_POWER_PROFILE_MAX_P
-
enumerator DCGM_POWER_PROFILE_MAX_Q
-
enumerator DCGM_POWER_PROFILE_COMPUTE
-
enumerator DCGM_POWER_PROFILE_MEMORY_BOUND
-
enumerator DCGM_POWER_PROFILE_NETWORK
-
enumerator DCGM_POWER_PROFILE_BALANCED
-
enumerator DCGM_POWER_PROFILE_LLM_INFERENCE
-
enumerator DCGM_POWER_PROFILE_LLM_TRAINING
-
enumerator DCGM_POWER_PROFILE_RBM
-
enumerator DCGM_POWER_PROFILE_DCPCIE
-
enumerator DCGM_POWER_PROFILE_HMMA_SPARSE
-
enumerator DCGM_POWER_PROFILE_HMMA_DENSE
-
enumerator DCGM_POWER_PROFILE_SYNC_BALANCED
-
enumerator DCGM_POWER_PROFILE_HPC
-
enumerator DCGM_POWER_PROFILE_MIG
-
enumerator DCGM_POWER_PROFILE_MAX
-
enumerator DCGM_POWER_PROFILE_MAX_P
-
enum dcgmPolicyConditionIdx_enum
策略条件的枚举。
当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值
值
-
enumerator DCGM_POLICY_COND_IDX_DBE
双位错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_PCI
PCI 事件/错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_MAX_PAGES_RETIRED
最大退休页数 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_IDX_THERMAL
热违规 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_IDX_POWER
电源违规 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_IDX_NVLINK
NVLINK 错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_XID
XID 错误 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_IDX_DBE
-
enum dcgmPolicyCondition_enum
策略条件的位掩码枚举。
当作为 dcgmPolicy_t 的一部分使用时,这些条件具有相应的参数,允许启用/禁用或设置特定的违规阈值
值
-
enumerator DCGM_POLICY_COND_DBE
双位错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_PCI
PCI 事件/错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_MAX_PAGES_RETIRED
最大退休页数 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_THERMAL
热违规 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_POWER
电源违规 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_NVLINK
NVLINK 错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_XID
XID 错误 — dcgmPolicyConditionParams_t 中所需的数字。
-
enumerator DCGM_POLICY_COND_DBE
-
enum dcgmPolicyMode_enum
策略模式的枚举。
值
-
enumerator DCGM_POLICY_MODE_AUTOMATED
自动模式
-
enumerator DCGM_POLICY_MODE_MANUAL
手动模式
-
enumerator DCGM_POLICY_MODE_AUTOMATED
-
enum dcgmPolicyAction_enum
策略动作的枚举。
值
-
enumerator DCGM_POLICY_ACTION_NONE
无操作
-
enumerator DCGM_POLICY_ACTION_GPURESET
已弃用 - 违规时执行 GPU 重置。
-
enumerator DCGM_POLICY_ACTION_NONE
-
enum dcgmPolicyValidation_enum
策略验证动作的枚举。
值
-
enumerator DCGM_POLICY_VALID_NONE
执行操作后不进行验证
-
enumerator DCGM_POLICY_VALID_SV_SHORT
失败后在系统上运行简短的系统验证
-
enumerator DCGM_POLICY_VALID_SV_MED
失败后运行中等系统验证测试
-
enumerator DCGM_POLICY_VALID_SV_LONG
失败后运行全面的系统验证测试
-
enumerator DCGM_POLICY_VALID_SV_XLONG
失败后运行更全面的系统验证测试
-
enumerator DCGM_POLICY_VALID_NONE
-
enum dcgmHealthSystems_enum
用于启用或禁用健康监控系统的系统结构。
值
-
enumerator DCGM_HEALTH_WATCH_PCIE
PCIe 系统监视(查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_NVLINK
NVLINK 系统监视。
-
enumerator DCGM_HEALTH_WATCH_PMU
电源管理单元监视。
-
enumerator DCGM_HEALTH_WATCH_MCU
微控制器单元监视。
-
enumerator DCGM_HEALTH_WATCH_MEM
内存监视。
-
enumerator DCGM_HEALTH_WATCH_SM
流式多处理器监视。
-
enumerator DCGM_HEALTH_WATCH_INFOROM
Inforom 监视。
-
enumerator DCGM_HEALTH_WATCH_THERMAL
温度监视(查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_POWER
功耗监视(查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_DRIVER
驱动程序相关监视。
-
enumerator DCGM_HEALTH_WATCH_NVSWITCH_NONFATAL
NvSwitch 中的非致命错误。
-
enumerator DCGM_HEALTH_WATCH_NVSWITCH_FATAL
NvSwitch 中的致命错误。
-
enumerator DCGM_HEALTH_WATCH_ALL
启用所有监视。
-
enumerator DCGM_HEALTH_WATCH_PCIE
-
enum dcgmHealthWatchResult_enum
健康监控测试结果。
值
-
enumerator DCGM_HEALTH_RESULT_PASS
此系统中的所有结果均报告正常。
-
enumerator DCGM_HEALTH_RESULT_WARN
已发出警告,请参阅响应以获取更多信息。
-
enumerator DCGM_HEALTH_RESULT_FAIL
已发出故障,请参阅响应以获取更多信息。
-
enumerator DCGM_HEALTH_RESULT_PASS
-
enum dcgmDiagResult_enum
诊断测试结果。
值
-
enumerator DCGM_DIAG_RESULT_PASS
此测试作为诊断通过。
-
enumerator DCGM_DIAG_RESULT_SKIP
此测试已跳过。
-
enumerator DCGM_DIAG_RESULT_WARN
此测试通过,但有警告。
-
enumerator DCGM_DIAG_RESULT_FAIL
此测试诊断失败。
-
enumerator DCGM_DIAG_RESULT_NOT_RUN
此测试未执行。
-
enumerator DCGM_DIAG_RESULT_PASS
-
enum dcgmDiagnosticLevel_t
诊断级别枚举。
值
-
enumerator DCGM_DIAG_LVL_INVALID
未初始化。
-
enumerator DCGM_DIAG_LVL_SHORT
在系统上运行非常基础的健康检查
-
enumerator DCGM_DIAG_LVL_MED
运行中等时长的诊断(几分钟)
-
enumerator DCGM_DIAG_LVL_LONG
运行全面的诊断(几分钟)
-
enumerator DCGM_DIAG_LVL_XLONG
运行非常全面的诊断(多分钟)
-
enumerator DCGM_DIAG_LVL_INVALID
-
enum dcgmPerGpuTestIndices_enum
每个 GPU 诊断测试 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。
值
-
enumerator DCGM_MEMORY_INDEX
内存测试索引。
-
enumerator DCGM_DIAGNOSTIC_INDEX
诊断测试索引。
-
enumerator DCGM_PCI_INDEX
PCIe 测试索引。
-
enumerator DCGM_SM_STRESS_INDEX
SM 压力测试索引。
-
enumerator DCGM_TARGETED_STRESS_INDEX
定向压力测试索引。
-
enumerator DCGM_TARGETED_POWER_INDEX
定向功耗测试索引。
-
enumerator DCGM_MEMORY_BANDWIDTH_INDEX
内存带宽测试索引。
-
enumerator DCGM_MEMTEST_INDEX
Memtest 测试索引。
-
enumerator DCGM_PULSE_TEST_INDEX
脉冲测试索引。
-
enumerator DCGM_EUD_TEST_INDEX
EUD 测试索引。
-
enumerator DCGM_NVBANDWIDTH_INDEX
NVBandwidth 索引。
-
enumerator DCGM_UNUSED2_TEST_INDEX
-
enumerator DCGM_UNUSED3_TEST_INDEX
-
enumerator DCGM_UNUSED4_TEST_INDEX
-
enumerator DCGM_UNUSED5_TEST_INDEX
-
enumerator DCGM_SOFTWARE_INDEX
软件测试索引。
-
enumerator DCGM_CONTEXT_CREATE_INDEX
上下文创建测试索引。
-
enumerator DCGM_UNKNOWN_INDEX
未知测试。
-
enumerator DCGM_MEMORY_INDEX
-
enum dcgmSoftwareTest_enum
值
-
enumerator DCGM_SWTEST_DENYLIST
测试驱动程序是否在拒绝列表中(例如 nouveau)
-
enumerator DCGM_SWTEST_NVML_LIBRARY
测试 NVML 库是否存在(以及版本)
-
enumerator DCGM_SWTEST_CUDA_MAIN_LIBRARY
测试 CUDA 库是否存在(以及版本)
-
enumerator DCGM_SWTEST_CUDA_RUNTIME_LIBRARY
测试 CUDA RT 库是否存在(以及版本)
-
enumerator DCGM_SWTEST_PERMISSIONS
测试字符设备权限
-
enumerator DCGM_SWTEST_PERSISTENCE_MODE
测试是否启用持久模式
-
enumerator DCGM_SWTEST_ENVIRONMENT
测试可能减慢测试速度的 CUDA 环境变量
-
enumerator DCGM_SWTEST_PAGE_RETIREMENT
测试是否有待处理的帧缓冲区页面停用
-
enumerator DCGM_SWTEST_GRAPHICS_PROCESSES
测试图形进程是否正在运行
-
enumerator DCGM_SWTEST_INFOROM
测试 inforom 是否损坏
-
enumerator DCGM_SWTEST_FABRIC_MANAGER
测试 Fabric Manager 是否正在运行
-
enumerator DCGM_SWTEST_DENYLIST
-
enum dcgmGpuLevel_enum
表示系统中两个 GPU 之间的级别关系。枚举值之间留有间隔,以便将来扩展关系。
这些值与 nvml.h 中的定义匹配
值
-
enumerator DCGM_TOPOLOGY_UNINITIALIZED
-
enumerator DCGM_TOPOLOGY_BOARD
多 GPU 板卡
-
enumerator DCGM_TOPOLOGY_SINGLE
所有仅需遍历单个 PCIe 交换机的设备
-
enumerator DCGM_TOPOLOGY_MULTIPLE
所有无需遍历主机桥的设备
-
enumerator DCGM_TOPOLOGY_HOSTBRIDGE
所有连接到同一主机桥的设备
-
enumerator DCGM_TOPOLOGY_CPU
所有连接到同一 CPU 但可能连接到多个主机桥的设备
-
enumerator DCGM_TOPOLOGY_SYSTEM
系统中的所有设备
-
enumerator DCGM_TOPOLOGY_NVLINK1
通过单个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK2
通过两个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK3
通过三个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK4
通过四个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK5
通过五个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK6
通过六个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK7
通过七个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK8
通过八个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK9
通过九个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK10
通过十个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK11
通过十一个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK12
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK13
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK14
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK15
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK16
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK17
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK18
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_UNINITIALIZED
-
enum dcgmGpuNVLinkErrorType_enum
标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。
值
-
enumerator DCGM_GPU_NVLINK_ERROR_RECOVERY_REQUIRED
发生 NVLink 链路恢复错误。
-
enumerator DCGM_GPU_NVLINK_ERROR_FATAL
发生 NVLink 链路致命错误。
-
enumerator DCGM_GPU_NVLINK_ERROR_RECOVERY_REQUIRED
-
enum dcgmNvLinkLinkState_enum
NvLink 链路状态。
值
-
enumerator DcgmNvLinkLinkStateNotSupported
此 GPU 不支持 NvLink (GPU 的默认状态)
-
enumerator DcgmNvLinkLinkStateDisabled
此链路支持 NvLink,但此链路已禁用 (NvSwitch 的默认状态)
-
enumerator DcgmNvLinkLinkStateDown
此 NvLink 链路已关闭 (非活动)
-
enumerator DcgmNvLinkLinkStateUp
此 NvLink 链路已开启 (活动)
-
enumerator DcgmNvLinkLinkStateNotSupported
-
enum dcgmModuleId_t
模块 ID。
值
-
enumerator DcgmModuleIdCore
核心 DCGM - 始终加载。
-
enumerator DcgmModuleIdNvSwitch
NvSwitch 模块。
-
enumerator DcgmModuleIdVGPU
VGPU 模块。
-
enumerator DcgmModuleIdIntrospect
自检模块。
-
enumerator DcgmModuleIdHealth
健康模块。
-
enumerator DcgmModuleIdPolicy
策略模块。
-
enumerator DcgmModuleIdConfig
配置模块。
-
enumerator DcgmModuleIdDiag
GPU 诊断模块。
-
enumerator DcgmModuleIdProfiling
性能分析模块。
-
enumerator DcgmModuleIdSysmon
系统监控模块。
-
enumerator DcgmModuleIdCount
始终是最后一个。比上面的最大值大 1。
-
enumerator DcgmModuleIdCore
-
enum dcgmModuleStatus_t
模块状态。
模块是延迟加载的,因此在被使用之前,它们将处于 DcgmModuleStatusNotLoaded 状态。一旦模块被使用,它们将移动到另一种状态。
值
-
enumerator DcgmModuleStatusNotLoaded
模块尚未加载。
-
enumerator DcgmModuleStatusDenylisted
模块在拒绝列表中;无法加载。
-
enumerator DcgmModuleStatusFailed
加载模块失败。
-
enumerator DcgmModuleStatusLoaded
模块已加载。
-
enumerator DcgmModuleStatusUnloaded
模块已卸载,发生在关闭期间。
-
enumerator DcgmModuleStatusPaused
模块已暂停。这是一种临时状态,一旦模块恢复,将变为 DcgmModuleStatusLoaded。此状态表示模块已加载。
-
enumerator DcgmModuleStatusNotLoaded
-
enum dcgmFabricManagerStatus_t
值
-
enumerator DcgmFMStatusNotSupported
此 GPU 不支持 Fabric Manager。
-
enumerator DcgmFMStatusNotStarted
此 GPU 的 Fabric Manager 尚未启动。
-
enumerator DcgmFMStatusInProgress
Fabric Manager 仍在启动中。
-
enumerator DcgmFMStatusSuccess
Fabric Manager 已成功启动。
-
enumerator DcgmFMStatusFailure
Fabric Manager 完成训练,但失败。
-
enumerator DcgmFMStatusUnrecognized
NVML 为 fabric manager 返回了无法识别的状态。
-
enumerator DcgmFMStatusNvmlTooOld
查询 fabric manager 状态时,NVML 返回了 NVML_ERROR_FUNCTION_NOT_FOUND。
-
enumerator DcgmFMStatusCount
有效状态的计数,始终比最后一个状态多 1。
-
enumerator DcgmFMStatusNotSupported
-
struct dcgm_link_s
- #include <dcgm_structs.h>
表示链接对象。
类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一;gpuId 或 switchID 是关联的 gpu 或交换机;index 是链接索引,从 0 开始,TX(偶数)在前,RX(奇数)在后。
公共成员
-
dcgm_field_entity_group_t type
实体组
-
uint32_t index
链路索引,先 Tx 后 Rx
-
dcgm_field_eid_t gpuId
物理 GPU ID
-
dcgm_field_eid_t switchId
物理交换机 ID
-
struct dcgm_link_s::[anonymous]::[anonymous] parsed
分解的链路标识符 GPU/SW:[GPU|SW]:Index
-
dcgm_field_eid_t raw
原始链路 ID
-
dcgm_field_entity_group_t type
-
struct dcgmConnectV2Params_v1
- #include <dcgm_structs.h>
dcgmConnect_v2 的连接选项 (v1)
注意:此版本已弃用。请使用 dcgmConnectV2Params_v2
-
struct dcgmConnectV2Params_v2
- #include <dcgm_structs.h>
dcgmConnect_v2 的连接选项 (v2)
公共成员
-
unsigned int version
版本号。使用 dcgmConnectV2Params_version
-
unsigned int persistAfterDisconnect
连接终止后,是否持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由此连接创建的所有字段监视都会被删除。1 = 不在此连接后清理。0 = 在此连接后清理
-
unsigned int timeoutMs
尝试连接到指定的主机引擎时,在放弃之前应等待多少毫秒
-
unsigned int addressIsUnixSocket
传入的地址是 Unix 套接字文件名 (1) 还是 TCP/IP 地址 (0)
-
unsigned int version
-
struct dcgmHostengineHealth_v1
- #include <dcgm_structs.h>
dcgmHostengineHealth_v1 的类型定义。
-
struct dcgmGroupEntityPair_t
- #include <dcgm_structs.h>
表示 entityGroupId + entityId 对,以唯一标识实体组内的给定 entityId。
在 DCGM 1.5.0 中添加
-
struct dcgmGroupInfo_v2
- #include <dcgm_structs.h>
用于存储 DCGM 组信息的结构体。
在 DCGM 1.5.0 中添加
公共成员
-
unsigned int version
版本号 (使用 dcgmGroupInfo_version2)
-
unsigned int count
entityList 中返回的 entityId 的计数
-
char groupName[256]
组名。
-
dcgmGroupEntityPair_t entityList[64]
此组中实体的列表。
-
unsigned int version
-
struct dcgmGroupInfo_v3
- #include <dcgm_structs.h>
用于存储 DCGM 组信息的结构体。
在 DCGM 1.5.0 中添加
公共成员
-
unsigned int version
版本号 (使用 dcgmGroupInfo_version3)
-
unsigned int count
entityList 中返回的 entityId 的计数
-
char groupName[256]
组名。
-
dcgmGroupEntityPair_t entityList[1024]
此组中实体的列表。
-
unsigned int version
-
struct dcgmMigHierarchyInfo_t
- #include <dcgm_structs.h>
表示实体配对,以唯一标识实体及其在层次结构中的位置。
公共成员
-
dcgmGroupEntityPair_t entity
相关实体的实体 ID 和类型。
-
dcgmGroupEntityPair_t parent
相关实体的父实体的实体 ID 和类型。
-
dcgmMigProfile_t sliceProfile
实体 MIG 配置文件标识符。
-
dcgmGroupEntityPair_t entity
-
struct dcgmMigEntityInfo_t
- #include <dcgm_structs.h>
提供有关 MIG 实体位置的附加信息。
公共成员
-
char gpuUuid[128]
GPU UUID
-
unsigned int nvmlGpuIndex
来自 NVML 的 GPU 索引
-
unsigned int nvmlInstanceId
GPU 内的 GPU 实例索引。 0 到 N。GPU 实体为 -1
-
unsigned int nvmlComputeInstanceId
GPU 实例内的 GPU 计算实例索引。 0 到 N。GPU 实例和 GPU 实体为 -1
-
unsigned int nvmlMigProfileId
GPU 或计算实例的唯一配置文件 ID。GPU 实体为 -1
另请参阅
nvmlComputeInstanceProfileInfo_st
另请参阅
nvmlGpuInstanceProfileInfo_st
-
unsigned int nvmlProfileSlices
MIG 配置文件中的切片数
-
char gpuUuid[128]
-
struct dcgmMigHierarchyInfo_v2
-
struct dcgmMigHierarchy_v2
-
struct dcgmCpuHierarchyOwnedCores_v1
-
struct dcgmFieldGroupInfo_v1
- #include <dcgm_structs.h>
表示字段组信息的结构体。
-
struct dcgmAllFieldGroup_v1
公共成员
-
unsigned int version
版本号 (dcgmAllFieldGroupInfo_version)
-
unsigned int numFieldGroups
fieldGroups[] 中已填充条目的数量。
-
dcgmFieldGroupInfo_t fieldGroups[64]
有关每个字段组的信息。
-
unsigned int version
-
struct dcgmErrorInfo_t
- #include <dcgm_structs.h>
表示错误属性的结构体。
-
struct dcgmClockSet_v1
- #include <dcgm_structs.h>
表示设备的内存、SM 和视频时钟的集合。
这可以是基于上下文的当前值或目标值
-
struct dcgmDeviceSupportedClockSets_v1
- #include <dcgm_structs.h>
表示设备支持的时钟集列表。
公共成员
-
unsigned int version
版本号 (dcgmDeviceSupportedClockSets_version)
-
unsigned int count
支持的时钟数。
-
dcgmClockSet_t clockSet[256]
设备的有效时钟集。最多填充 count 个条目。
-
unsigned int version
-
struct dcgmDevicePidAccountingStats_v1
- #include <dcgm_structs.h>
表示一个进程的统计数据。
公共成员
-
unsigned int version
版本号。应与 dcgmDevicePidAccountingStats_version 匹配。
-
unsigned int pid
此统计数据所属进程的进程 ID。
-
unsigned int gpuUtilization
进程生命周期内,一个或多个内核在 GPU 上执行的时间百分比。
如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED
-
unsigned int memoryUtilization
进程生命周期内,全局(设备)内存正在被读取或写入的时间百分比。
如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED
-
unsigned long long maxMemoryUsage
进程曾经分配的最大总内存(以字节为单位)。
如果不支持,则设置为 DCGM_INT64_NOT_SUPPORTED
-
unsigned long long startTimestamp
CPU 时间戳,以微秒为单位表示进程的开始时间。
-
unsigned long long activeTimeUsec
计算上下文处于活动状态的微秒数。
请注意,这并不意味着上下文正在被使用。 endTimestamp 可以计算为 startTimestamp + activeTime
-
unsigned int version
-
struct dcgmDeviceThermals_v1
- #include <dcgm_structs.h>
表示热信息。
-
struct dcgmDevicePowerLimits_v1
- #include <dcgm_structs.h>
表示各种功率限制。
-
struct dcgmDeviceIdentifiers_v1
- #include <dcgm_structs.h>
表示设备标识符。
公共成员
-
unsigned int version
版本号 (dcgmDeviceIdentifiers_version)
-
char brandName[256]
品牌名称。
-
char deviceName[256]
设备名称。
-
char pciBusId[256]
PCI 总线 ID。
-
char serial[256]
设备的序列号。
-
char uuid[256]
设备的 UUID。
-
char vbios[256]
VBIOS 版本。
-
char inforomImageVersion[256]
Inforom 镜像版本。
-
unsigned int pciDeviceId
组合的 16 位设备 ID 和 16 位供应商 ID。
-
unsigned int pciSubSystemId
32 位子系统设备 ID。
-
char driverVersion[256]
驱动程序版本。
-
unsigned int virtualizationMode
虚拟化模式。
-
unsigned int version
-
struct dcgmDeviceMemoryUsage_v1
- #include <dcgm_structs.h>
表示设备内存和使用情况。
-
struct dcgmDeviceVgpuUtilInfo_v1
- #include <dcgm_structs.h>
表示设备上运行的 vGPU 的利用率值。
-
struct dcgmDeviceEncStats_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例的当前编码器统计信息。
-
struct dcgmDeviceFbcStats_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例的当前帧缓冲区捕获会话统计信息。
-
struct dcgmDeviceFbcSessionInfo_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例上活动 FBC 会话的相关信息。
公共成员
-
unsigned int version
版本号 (dcgmDeviceFbcSessionInfo_version)
-
unsigned int sessionId
唯一会话 ID。
-
unsigned int pid
所有者进程 ID。
-
unsigned int vgpuId
vGPU 实例 ID(仅在 vGPU 主机上有效,否则为零)
-
unsigned int displayOrdinal
显示标识符。
-
dcgmFBCSessionType_t sessionType
帧缓冲区捕获会话的类型。
-
unsigned int sessionFlags
会话标志。
-
unsigned int hMaxResolution
捕获会话支持的最大水平分辨率。
-
unsigned int vMaxResolution
捕获会话支持的最大垂直分辨率。
-
unsigned int hResolution
调用方在捕获调用中请求的水平分辨率。
-
unsigned int vResolution
调用方在捕获调用中请求的垂直分辨率。
-
unsigned int averageFps
每秒捕获的新帧的移动平均值。
-
unsigned int averageLatency
捕获新帧的移动平均延迟,单位为微秒。
-
unsigned int version
-
struct dcgmDeviceFbcSessions_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例上的所有活动 FBC 会话。
公共成员
-
unsigned int version
版本号 (dcgmDeviceFbcSessions_version)
-
unsigned int sessionCount
活动 FBC 会话计数。
-
dcgmDeviceFbcSessionInfo_t sessionInfo[256]
有关活动 FBC 会话的信息。
-
unsigned int version
-
struct dcgmDeviceVgpuEncSessions_v1
- #include <dcgm_structs.h>
表示给定 vGPU 实例上活动编码器会话的相关信息。
公共成员
-
unsigned int version
版本号 (dcgmDeviceVgpuEncSessions_version)
-
unsigned int vgpuId
vGPU 实例 ID
-
unsigned int sessionId
唯一会话 ID。
-
unsigned int pid
进程 ID。
-
dcgmEncoderType_t codecType
视频编码器类型。
-
unsigned int hResolution
当前编码水平分辨率。
-
unsigned int vResolution
当前编码垂直分辨率。
-
unsigned int averageFps
编码帧的移动平均帧率。
-
unsigned int averageLatency
编码延迟的移动平均值,单位为毫秒。
-
unsigned int version
-
struct dcgmDeviceVgpuProcessUtilInfo_v1
- #include <dcgm_structs.h>
表示使用该设备的 vGPU VM 中运行的进程的利用率值。
公共成员
-
unsigned int version
版本号 (dcgmDeviceVgpuProcessUtilInfo_version)
-
unsigned int vgpuId
vGPU 实例 ID
-
unsigned int vgpuProcessSamplesCount
vGPU VM 中运行的进程计数,这些进程的利用率在本周期内报告。
-
unsigned int pid
vGPU VM 中运行的进程的进程 ID。
-
char processName[64]
vGPU VM 中运行的进程的名称。
-
unsigned int smUtil
vGPU VM 中运行的进程的 GPU 利用率。
-
unsigned int memUtil
vGPU VM 中运行的进程的显存利用率。
-
unsigned int encUtil
vGPU VM 中运行的进程的编码器利用率。
-
unsigned int decUtil
vGPU VM 中运行的进程的解码器利用率。
-
unsigned int version
-
struct dcgmDeviceVgpuTypeInfo_v1
- #include <dcgm_structs.h>
表示设备上支持的 vGPU 相关的静态信息。
公共成员
-
unsigned int version
版本号 (dcgmDeviceVgpuTypeInfo_version)
-
union dcgmDeviceVgpuTypeInfo_v1::[anonymous] vgpuTypeInfo
vGPU 类型 ID 和支持的 vGPU 类型计数
-
char vgpuTypeName[64]
vGPU 类型名称
-
char vgpuTypeClass[64]
vGPU 类型的类别。
-
char vgpuTypeLicense[128]
vGPU 类型的许可证
-
int deviceId
vGPU 类型的设备 ID
-
int subsystemId
vGPU 类型的子系统 ID。
-
int numDisplayHeads
vGPU 支持的显示头数量。
-
int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
int frameRateLimit
vGPU 类型的帧率限制值。
-
int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
int fbTotal
vGPU 总帧缓冲区大小,以兆字节为单位
-
unsigned int version
-
struct dcgmDeviceVgpuTypeInfo_v2
公共成员
-
版本号 (dcgmDeviceVgpuTypeInfo_version2)
unsigned int version
-
union dcgmDeviceVgpuTypeInfo_v2::[anonymous] vgpuTypeInfo
vGPU 类型 ID 和支持的 vGPU 类型计数
-
char vgpuTypeName[64]
vGPU 类型名称
-
char vgpuTypeClass[64]
vGPU 类型的类别。
-
char vgpuTypeLicense[128]
vGPU 类型的许可证
-
int deviceId
vGPU 类型的设备 ID
-
int subsystemId
vGPU 类型的子系统 ID。
-
int numDisplayHeads
vGPU 支持的显示头数量。
-
int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
int frameRateLimit
vGPU 类型的帧率限制值。
-
int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
int fbTotal
vGPU 总帧缓冲区大小,以兆字节为单位
-
int gpuInstanceProfileId
给定 vGPU 类型的 GPU 实例 Profile ID。
-
版本号 (dcgmDeviceVgpuTypeInfo_version2)
-
struct dcgmDeviceSupportedVgpuTypeInfo_v1
- #include <dcgm_structs.h>
表示设备上支持的 vGPU 相关的信息。
公共成员
-
unsigned int version
版本号 (dcgmDeviceSupportedVgpuTypeInfo_version)
-
unsigned long long deviceId
vGPU 类型的设备 ID
-
unsigned long long subsystemId
vGPU 类型的子系统 ID。
-
unsigned int numDisplayHeads
vGPU 支持的显示头数量。
-
unsigned int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
unsigned int frameRateLimit
vGPU 类型的帧率限制值。
-
unsigned int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
unsigned int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
unsigned long long fbTotal
vGPU 总帧缓冲区大小,以兆字节为单位
-
unsigned int gpuInstanceProfileId
给定 vGPU 类型的 GPU 实例 Profile ID。
-
unsigned int version
-
struct dcgmDeviceSettings_v2
-
struct dcgmDeviceAttributes_v3
公共成员
-
unsigned int version
版本号 (dcgmDeviceAttributes_version)
-
dcgmDeviceSupportedClockSets_t clockSets
设备支持的时钟。
-
dcgmDeviceThermals_t thermalSettings
设备的散热设置。
-
dcgmDevicePowerLimits_t powerLimits
设备的各种功率限制。
-
dcgmDeviceIdentifiers_t identifiers
设备的标识符。
-
dcgmDeviceMemoryUsage_t memoryUsage
设备的显存使用信息。
-
dcgmDeviceSettings_v2 settings
基本设备设置。
-
unsigned int version
-
struct dcgmDeviceMigAttributesInfo_v1
- #include <dcgm_structs.h>
表示 MIG 设备的属性信息的结构体。
公共成员
-
unsigned int version
版本号 (dcgmDeviceMigAttributesInfo_version)
-
unsigned int gpuInstanceId
GPU 实例 ID。
-
unsigned int computeInstanceId
计算实例 ID。
-
unsigned int multiprocessorCount
流式多处理器计数。
共享复制引擎计数。
共享解码器引擎计数。
共享编码器引擎计数。
共享 JPEG 引擎计数。
共享 OFA 引擎计数。
-
unsigned int gpuInstanceSliceCount
GPU 实例切片计数。
-
unsigned int computeInstanceSliceCount
计算实例切片计数。
-
unsigned long long memorySizeMB
设备内存大小 (单位:MiB)
-
unsigned int version
-
struct dcgmDeviceMigAttributes_v1
- #include <dcgm_structs.h>
用于表示 MIG 设备属性的结构体。
公共成员
-
unsigned int version
版本号 (dcgmDeviceMigAttributes_version)
-
unsigned int migDevicesCount
MIG 设备计数。
-
dcgmDeviceMigAttributesInfo_v1 migAttributesInfo
MIG 属性信息。
-
unsigned int version
-
struct dcgmGpuInstanceProfileInfo_v1
- #include <dcgm_structs.h>
用于表示 GPU 实例配置文件信息的结构体。
公共成员
-
unsigned int version
版本号 (dcgmGpuInstanceProfileInfo_version)
-
unsigned int id
设备内唯一的配置文件 ID。
-
unsigned int isP2pSupported
点对点 (Peer-to-Peer) 支持。
-
unsigned int sliceCount
GPU 切片计数。
-
unsigned int instanceCount
GPU 实例计数。
-
unsigned int multiprocessorCount
流式多处理器计数。
-
unsigned int copyEngineCount
复制引擎计数。
-
unsigned int decoderCount
解码器引擎计数。
-
unsigned int encoderCount
编码器引擎计数。
-
unsigned int jpegCount
JPEG 引擎计数。
-
unsigned int ofaCount
OFA 引擎计数。
-
unsigned long long memorySizeMB
内存大小,单位兆字节 (MB)。
-
unsigned int version
-
struct dcgmGpuInstanceProfiles_v1
- #include <dcgm_structs.h>
用于表示 GPU 实例配置文件的结构体。
公共成员
-
unsigned int version
版本号 (dcgmGpuInstanceProfiles_version)
-
unsigned int profileCount
配置文件计数。
-
dcgmGpuInstanceProfileInfo_v1 profileInfo
GPU 实例配置文件信息。
-
unsigned int version
-
struct dcgmComputeInstanceProfileInfo_v1
- #include <dcgm_structs.h>
用于表示计算实例配置文件信息的结构体。
公共成员
-
unsigned int version
版本号 (dcgmComputeInstanceProfileInfo_version)
-
unsigned int gpuInstanceId
GPU 实例 ID。
-
unsigned int id
GPU 实例内唯一的配置文件 ID。
-
unsigned int sliceCount
GPU 切片计数。
-
unsigned int instanceCount
计算实例计数。
-
unsigned int multiprocessorCount
流式多处理器计数。
共享复制引擎计数。
共享解码器引擎计数。
共享编码器引擎计数。
共享 JPEG 引擎计数。
共享 OFA 引擎计数。
-
unsigned int version
-
struct dcgmComputeInstanceProfiles_v1
- #include <dcgm_structs.h>
用于表示计算实例配置文件的结构体。
公共成员
-
unsigned int version
版本号 (dcgmComputeInstanceProfiles_version)
-
unsigned int profileCount
配置文件计数。
-
dcgmComputeInstanceProfileInfo_v1 profileInfo
计算实例配置文件信息。
-
unsigned int version
-
struct dcgmWorkloadPowerProfileProfilesInfo_v1
公共成员
-
unsigned int version
API 版本号
-
dcgmWorkloadPowerProfileInfo_v1 workloadPowerProfile[(255)]
工作负载功耗配置文件信息参数数组。
-
unsigned int version
-
struct dcgmDeviceWorkloadPowerProfilesStatus_v1
- #include <dcgm_structs.h>
设备工作负载配置文件信息。
-
struct dcgmConfigPerfStateSettings_t
- #include <dcgm_structs.h>
用于表示性能状态设置。
公共成员
-
unsigned int syncBoost
同步加速模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)。
请注意,使用此设置可能会导致时钟频率低于 targetClocks
-
dcgmClockSet_t targetClocks
目标时钟频率。
将 smClock 和 memClock 设置为 DCGM_INT32_BLANK 以忽略/使用兼容值。对于 Maxwell 或更高版本的 GPU,设置此项意味着 autoBoost=0
-
unsigned int syncBoost
-
struct dcgmConfigPowerLimit_t
- #include <dcgm_structs.h>
用于表示组中每个 GPU 的功率上限或表示整个组的功率预算。
公共成员
-
dcgmConfigPowerLimitType_t type
标志,用于表示每个 GPU 的功率上限或 GPU 组的功率预算。
-
unsigned int val
功率限制,单位瓦特 (设置一个值或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPowerLimitType_t type
-
struct dcgmConfig_v1
- #include <dcgm_structs.h>
用于表示设备的默认和目标配置的结构体。
公共成员
-
unsigned int version
版本号 (dcgmConfig_version)
-
unsigned int gpuId
GPU ID。
-
unsigned int eccMode
ECC 模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)
-
unsigned int computeMode
计算模式 (DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPerfStateSettings_t perfState
性能状态设置 (时钟频率 / 加速模式)
-
dcgmConfigPowerLimit_t powerLimit
功耗限制。
-
unsigned int version
-
struct dcgmConfig_v2
公共成员
-
unsigned int version
版本号 (dcgmConfig_version)
-
unsigned int gpuId
GPU ID。
-
unsigned int eccMode
ECC 模式 (0: 禁用, 1 : 启用, DCGM_INT32_BLANK : 忽略)
-
unsigned int computeMode
计算模式 (DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPerfStateSettings_t perfState
性能状态设置 (时钟频率 / 加速模式)
-
dcgmConfigPowerLimit_t powerLimit
功耗限制。
-
unsigned int version
-
struct dcgmPolicyViolation_v1
-
struct dcgmPolicyConditionParams_st
- #include <dcgm_structs.h>
策略条件参数的结构体。
此结构体包含一个标签,表示传递的值的类型,以及一个 “val”,它是可能值类型的联合。例如,要传递一个真布尔值:tag = BOOL,val.boolean = 1。
-
struct dcgmPolicyViolationNotify_t
- #include <dcgm_structs.h>
当用户查询策略违规时填充的结构体。
-
struct dcgmPolicy_v1
- #include <dcgm_structs.h>
定义指定 GPU 要强制执行的策略的结构体。
公共成员
-
unsigned int version
版本号 (dcgmPolicy_version)
-
dcgmPolicyCondition_t condition
访问 dcgmPolicyCondition_t 的条件。
-
dcgmPolicyMode_t mode
操作模式 dcgmPolicyMode_t。
-
dcgmPolicyIsolation_t isolation
策略违规后的隔离级别 dcgmPolicyIsolation_t。
-
dcgmPolicyAction_t action
策略违规后要执行的动作 dcgmPolicyAction_t action。
-
dcgmPolicyValidation_t validation
采取动作后要执行的验证 dcgmPolicyValidation_t。
-
dcgmPolicyFailureResp_t response
验证失败响应 dcgmPolicyFailureResp_t。
-
dcgmPolicyConditionParams_t parms[7]
condition 字段的参数。
-
unsigned int version
-
struct dcgmPolicyConditionDbe_t
- #include <dcgm_structs.h>
定义 ECC DBE 返回结构体。
公共成员
-
long long timestamp
错误的 时间戳
-
enum dcgmPolicyConditionDbe_t::[anonymous] location
错误的位置
-
unsigned int numerrors
错误数量
-
long long timestamp
-
struct dcgmPolicyConditionPci_t
- #include <dcgm_structs.h>
定义 PCI 重放错误返回结构体。
-
struct dcgmPolicyConditionMpr_t
- #include <dcgm_structs.h>
定义最大待处理的已退役页面限制返回结构体。
-
struct dcgmPolicyConditionThermal_t
- #include <dcgm_structs.h>
定义热策略违规返回结构体。
-
struct dcgmPolicyConditionPower_t
- #include <dcgm_structs.h>
定义功耗策略违规返回结构体。
-
struct dcgmPolicyConditionNvlink_t
- #include <dcgm_structs.h>
定义 nvlink 策略违规返回结构体。
-
struct dcgmPolicyConditionXID_t
- #include <dcgm_structs.h>
定义 xid 策略违规返回结构体。
-
struct dcgmPolicyCallbackResponse_v2
- #include <dcgm_structs.h>
定义提供给回调函数的结构体。
公共成员
-
unsigned int version
版本号 (dcgmPolicyCallbackResponse_version)
-
dcgmPolicyCondition_t condition
被违反的条件。
-
dcgmPolicyConditionDbe_t dbe
ECC DBE 返回结构体。
-
dcgmPolicyConditionPci_t pci
PCI 重放错误返回结构体。
-
dcgmPolicyConditionMpr_t mpr
最大已退役页面限制返回结构体。
-
dcgmPolicyConditionThermal_t thermal
热策略违规返回结构体。
-
dcgmPolicyConditionPower_t power
功耗策略违规返回结构体。
-
dcgmPolicyConditionNvlink_t nvlink
Nvlink 策略违规返回结构体。
-
dcgmPolicyConditionXID_t xid
XID 策略违规返回结构体。
-
unsigned int gpuId
违反策略的 GPU 的 GPU ID。
-
unsigned int version
-
struct dcgmFieldValue_v1
- #include <dcgm_structs.h>
此结构体用于表示要查询的字段的值。
公共成员
-
unsigned int version
版本号 (dcgmFieldValue_version1)
-
unsigned short fieldId
DCGM_FI_? 之一
-
unsigned short fieldType
DCGM_FT_? 之一
-
int status
查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一
-
int64_t ts
自 1970 年以来的微秒时间戳。
-
int64_t i64
Int64 值。
-
double dbl
Double 值。
-
char str[256]
NULL 结尾的字符串。
-
char blob[4096]
二进制数据块。
-
union dcgmFieldValue_v1::[anonymous] value
值。
-
unsigned int version
-
struct dcgmFieldValue_v2
- #include <dcgm_structs.h>
此结构体用于表示要查询的字段的值。
公共成员
-
unsigned int version
版本号 (dcgmFieldValue_version2)
-
dcgm_field_entity_group_t entityGroupId
此字段值的实体所属的实体组。
-
dcgm_field_eid_t entityId
此字段值所属的实体。
-
unsigned short fieldId
DCGM_FI_? 之一
-
unsigned short fieldType
DCGM_FT_? 之一
-
int status
查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一
-
unsigned int unused
目前未使用,用于将 ts 对齐到 8 字节边界。
-
int64_t ts
自 1970 年以来的微秒时间戳。
-
int64_t i64
Int64 值。
-
double dbl
Double 值。
-
char str[256]
NULL 结尾的字符串。
-
char blob[4096]
二进制数据块。
-
union dcgmFieldValue_v2::[anonymous] value
值。
-
unsigned int version
-
struct dcgmStatSummaryInt64_t
- #include <dcgm_structs.h>
int64 格式的时间序列数据摘要。
每个值将被设置或为空白值。使用 DCGM_INT64_IS_BLANK() 宏检查空白。
另请参阅
有关空白值的实际值,请参阅 dcgmvalue.h
-
struct dcgmStatSummaryInt32_t
- #include <dcgm_structs.h>
与 dcgmStatSummaryInt64_t 相同,但使用 32 位整数值。
-
struct dcgmStatSummaryFp64_t
- #include <dcgm_structs.h>
双精度格式的时间序列数据摘要。
每个值将被设置或为空白值。使用 DCGM_FP64_IS_BLANK() 宏检查空白。
另请参阅
有关空白值的实际值,请参阅 dcgmvalue.h
-
struct dcgmDiagErrorDetail_t
-
struct dcgmDiagErrorDetail_v2
- #include <dcgm_structs.h>
错误详情。
自 DCGM 3.3 起
-
struct dcgmDiagInfo_v1
- #include <dcgm_structs.h>
诊断插件的每个实体信息结果 v1。
自 DCGM 4.0 起
公共成员
-
dcgmGroupEntityPair_t entity
与信息关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。
-
char msg[512]
与插件报告的错误相关的任何消息。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagError_v1
- #include <dcgm_structs.h>
诊断插件的每个实体错误结果 v1。
自 DCGM 4.0 起
公共成员
-
dcgmGroupEntityPair_t entity
与错误关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。
-
unsigned int code
正在报告的错误代码。
-
unsigned int category
报告的错误类别。请参阅 dcgm_errors.h 中的 dcgmErrorCategory_t。
-
unsigned int severity
报告的错误的严重性。请参阅 dcgm_errors.h 中的 dcgmErrorSeverity_t。
-
char msg[512]
与插件报告的错误相关的任何消息。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagEntityResult_v1
- #include <dcgm_structs.h>
诊断插件的每个实体错误结果 v1。
自 DCGM 4.0 起。另请参阅 PluginInterface.h: dcgmDiagEntityResults_v1。
公共成员
-
dcgmGroupEntityPair_t entity
与结果关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。
-
dcgmDiagResult_t result
此实体的结果。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagTestAuxData_v1
- #include <dcgm_structs.h>
每个测试的辅助数据结构 v1。
自 DCGM 4.0 起
公共成员
-
unsigned int version
版本号 (dcgmDiagTestAuxData_version1)
-
unsigned int version
-
struct dcgmDiagTestRun_v1
- #include <dcgm_structs.h>
有关每次测试运行的信息。
自 DCGM 4.0 起
公共成员
-
char name[32]
测试的名称。
-
char pluginName[32]
此测试所属的插件名称。
-
dcgmDiagResult_t result
插件的总体结果(PASS、FAIL、SKIP、WARN、NOT_RUN)。
-
unsigned char numErrors
错误数,在 PASS 时始终为 0。
-
unsigned char numInfo
信息消息数。
-
unsigned char categoryIndex
DiagResponse.categories 的索引。
-
unsigned char _unused
填充字节
-
unsigned short numResults
实体结果数。
-
unsigned char errorIndices[32]
此运行的每个实体的错误索引。
-
unsigned char infoIndices[16]
此运行的每个实体的信息索引。
-
unsigned short resultIndices[1024]
此运行的每个实体的结果索引。
-
char name[32]
-
struct dcgmDiagEntity_v1
- #include <dcgm_structs.h>
以实体为中心的诊断运行的附加实体详细信息。
自 DCGM 4.0 起。
公共成员
-
dcgmGroupEntityPair_t entity
实体组和实体 ID。
-
char serialNum[256]
序列号(字符串;仅 GPU?)。
-
char skuDeviceId[5]
PCI 设备 ID(字符串;仅 GPU?)。
-
dcgmGroupEntityPair_t entity
-
struct dcgmIncidentInfo_t
公共成员
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此事件的健康状况诊断
-
dcgmDiagErrorDetail_t error
有关错误及其错误代码的信息。
-
dcgmGroupEntityPair_t entityInfo
标识哪个实体有此错误
-
dcgmHealthSystems_t system
-
struct dcgmHealthResponse_v5
- #include <dcgm_structs.h>
健康响应结构版本 4 - 简单地列出事件,而不是按实体报告。
自 DCGM 2.0 起
公共成员
-
unsigned int version
此结构体的版本号。
-
dcgmHealthWatchResults_t overallHealth
此主机的总体健康状况。
-
unsigned int incidentCount
此结构体中报告的健康事件数量。
-
dcgmIncidentInfo_t incidents[1024]
检测到的错误报告。
-
unsigned int version
-
struct dcgmHealthSetParams_v2
- #include <dcgm_structs.h>
用于通过 dcgmHealthSet_v2 API 设置健康监视的结构体。
公共成员
-
unsigned int version
此结构体的版本。应为 dcgmHealthSet_version2
-
dcgmGpuGrp_t groupId
组 ID,表示一个或多个实体的集合。查看 dcgmGroupCreate 以获取有关创建组的详细信息。或者,传入组 ID 作为 DCGM_GROUP_ALL_GPUS 以对所有 GPU 执行操作,或 DCGM_GROUP_ALL_NVSWITCHES 以对所有 NvSwitch 执行操作。
-
dcgmHealthSystems_t systems
一个枚举,表示应启用哪些系统进行健康检查,并进行逻辑 OR 运算。 有关详细信息,请参阅 dcgmHealthSystems_t。
-
long long updateInterval
从 NVIDIA 驱动程序查询底层健康信息的频率,单位为微秒。 这应与您调用 dcgmHealthCheck 的频率相同
-
double maxKeepAge
为此字段缓存数据的时间长度,单位为秒。 这应至少是您调用 dcgmHealthCheck 的最大时间间隔
-
unsigned int version
-
struct dcgmProcessUtilInfo_t
- #include <dcgm_structs.h>
每个进程的利用率
-
struct dcgmProcessUtilSample_t
- #include <dcgm_structs.h>
用于获取 PID 和相应利用率的内部结构体。
-
struct dcgmPidSingleInfo_t
- #include <dcgm_structs.h>
对应于单个 PID 的信息。
公共成员
-
unsigned int gpuId
此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。
-
long long energyConsumed
GPU 消耗的能量,单位为毫瓦/秒。
-
dcgmStatSummaryInt64_t pcieRxBandwidth
从 GPU 读取的 PCI-E 字节数。
-
dcgmStatSummaryInt64_t pcieTxBandwidth
写入 GPU 的 PCI-E 字节数。
-
long long pcieReplays
发生的 PCI-E 重放计数。
-
long long startTime
进程启动时间,自 1970 年以来的微秒数。
-
long long endTime
进程结束时间,自 1970 年以来的微秒数;如果进程未完成,则报告为 0。
-
dcgmProcessUtilInfo_t processUtilization
进程 SM 和内存利用率(百分比)
-
dcgmStatSummaryInt32_t smUtilization
GPU SM 利用率,以百分比表示。
-
dcgmStatSummaryInt32_t memoryUtilization
GPU 内存利用率,以百分比表示。
-
unsigned int eccSingleBit
已弃用 - 发生的 ECC 单位错误计数。
-
unsigned int eccDoubleBit
发生的 ECC 双位错误计数。
-
dcgmStatSummaryInt32_t memoryClock
内存时钟频率,单位为 MHz。
-
dcgmStatSummaryInt32_t smClock
SM 时钟频率,单位为 MHz。
-
int numXidCriticalErrors
xidCriticalErrorsTs 中有效条目的数量。
-
long long xidCriticalErrorsTs[10]
发生的严重 XID 错误的时间戳。
-
int numOtherComputePids
有效 otherComputePids 条目的计数。
-
unsigned int otherComputePids[16]
运行的其他计算进程。 0=无进程。
-
int numOtherGraphicsPids
有效 otherGraphicsPids 条目的计数。
-
unsigned int otherGraphicsPids[16]
运行的其他图形进程。 0=无进程。
-
long long maxGpuMemoryUsed
已使用的最大 GPU 内存量,单位为字节。
-
long long powerViolationTime
由于功率违规而降低时钟频率的微秒数。
-
long long thermalViolationTime
由于热违规而降低时钟频率的微秒数。
-
long long reliabilityViolationTime
由于可靠性限制而降低时钟频率的微秒数。
-
long long boardLimitViolationTime
由于达到板卡最大电压而降低时钟频率的微秒数。
-
long long lowUtilizationTime
由于低利用率而降低时钟频率的微秒数。
-
long long syncBoostTime
由于同步加速而降低时钟频率的微秒数。
-
dcgmHealthWatchResults_t overallHealth
系统的总体健康状况。 dcgmHealthWatchResults_t。
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此 GPU 上指定系统的健康状况
-
unsigned int gpuId
-
struct dcgmPidInfo_v2
- #include <dcgm_structs.h>
用于存储进程统计信息。
公共成员
-
unsigned int version
此消息的版本 (dcgmPidInfo_version)
-
unsigned int pid
进程的 PID。
-
int numGpus
GPUs 中有效的 GPU 数量。
-
dcgmPidSingleInfo_t summary
gpus[] 中列出的所有 GPU 的摘要信息。
-
dcgmPidSingleInfo_t gpus[32]
此 PID 的每个 GPU 信息。
-
unsigned int version
-
struct dcgmGpuUsageInfo_t
- #include <dcgm_structs.h>
与 GPU 上的作业相对应的信息。
公共成员
-
unsigned int gpuId
此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。
-
long long energyConsumed
以毫瓦/秒为单位消耗的能量。
-
dcgmStatSummaryFp64_t powerUsage
功率使用量,最小值/最大值/平均值,单位为瓦特。
-
dcgmStatSummaryInt64_t pcieRxBandwidth
从 GPU 读取的 PCI-E 字节数。
-
dcgmStatSummaryInt64_t pcieTxBandwidth
写入 GPU 的 PCI-E 字节数。
-
long long pcieReplays
发生的 PCI-E 重放计数。
-
long long startTime
用户提供的作业开始时间,自 1970 年以来的微秒数。
-
long long endTime
用户提供的作业结束时间,自 1970 年以来的微秒数。
-
dcgmStatSummaryInt32_t smUtilization
GPU SM 利用率,以百分比表示。
-
dcgmStatSummaryInt32_t memoryUtilization
GPU 内存利用率,以百分比表示。
-
unsigned int eccSingleBit
已弃用 - 发生的 ECC 单位错误计数。
-
unsigned int eccDoubleBit
发生的 ECC 双位错误计数。
-
dcgmStatSummaryInt32_t memoryClock
内存时钟频率,单位为 MHz。
-
dcgmStatSummaryInt32_t smClock
SM 时钟频率,单位为 MHz。
-
int numXidCriticalErrors
xidCriticalErrorsTs 中有效条目的数量。
-
long long xidCriticalErrorsTs[10]
发生的严重 XID 错误的时间戳。
-
有效 computePids 条目的计数。
int numComputePids
-
dcgmProcessUtilInfo_t computePidInfo[16]
在作业期间运行的计算进程列表。
0=无进程
-
int numGraphicsPids
有效 graphicsPids 条目的计数。
-
dcgmProcessUtilInfo_t graphicsPidInfo[16]
在作业期间运行的计算进程列表。
0=无进程
-
long long maxGpuMemoryUsed
已使用的最大 GPU 内存量,单位为字节。
-
long long powerViolationTime
由于功率违规而降低时钟频率的微秒数。
-
long long thermalViolationTime
由于热违规而降低时钟频率的微秒数。
-
long long reliabilityViolationTime
由于可靠性限制而降低时钟频率的微秒数。
-
long long boardLimitViolationTime
由于达到板卡最大电压而降低时钟频率的微秒数。
-
long long lowUtilizationTime
由于低利用率而降低时钟频率的微秒数。
-
long long syncBoostTime
由于同步加速而降低时钟频率的微秒数。
-
dcgmHealthWatchResults_t overallHealth
系统的总体健康状况。 dcgmHealthWatchResults_t。
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此 GPU 上指定系统的健康状况
-
unsigned int gpuId
-
struct dcgmJobInfo_v3
- #include <dcgm_structs.h>
用于存储作业统计信息 以下字段不适用于摘要信息
pcieRxBandwidth(最小值/最大值)
pcieTxBandwidth(最小值/最大值)
smUtilization(最小值/最大值)
memoryUtilization(最小值/最大值)
memoryClock(最小值/最大值)
smClock(最小值/最大值)
processSamples
上述字段的平均值(在摘要中)是所有 GPU 中相应字段平均值的平均值
公共成员
-
unsigned int version
此消息的版本 (dcgmPidInfo_version)
-
int numGpus
gpus[] 中有效的 GPU 数量。
-
dcgmGpuUsageInfo_t summary
gpus[] 中列出的所有 GPU 的摘要信息。
-
dcgmGpuUsageInfo_t gpus[32]
此 PID 的每个 GPU 信息。
-
struct dcgmRunningProcess_v1
- #include <dcgm_structs.h>
用于计算或图形进程的运行进程信息。
-
struct dcgmDiagTestResult_v2
公共成员
-
dcgmDiagResult_t status
测试结果。
-
dcgmDiagErrorDetail_t error
错误消息和错误代码(如果有)。
-
char info[1024]
从测试返回的信息详情(如果有)。
-
dcgmDiagResult_t status
-
struct dcgmDiagTestResult_v3
公共成员
-
dcgmDiagResult_t status
测试结果。
-
dcgmDiagErrorDetail_v2 error[5]
错误消息和错误代码(如果有)。
-
char info[512]
从测试返回的信息详情(如果有)。
-
dcgmDiagResult_t status
-
struct dcgmDiagResponsePerGpu_v4
- #include <dcgm_structs.h>
每 GPU 诊断结果结构体。
公共成员
-
unsigned int gpuId
此信息所属 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v2 results[13]
包含每个每 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponsePerGpu_v5
公共成员
-
unsigned int gpuId
此信息所属 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v3 results[13]
包含每个每 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponsePerGpu_v3
- #include <dcgm_structs.h>
每 GPU 响应结构体 v3。
自 DCGM 2.4 起
公共成员
-
unsigned int gpuId
此信息所属 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v2 results[9]
包含每个每 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponse_v11
- #include <dcgm_structs.h>
全局诊断结果结构体 v11。
自 DCGM 4.0 起
公共成员
-
unsigned int version
版本号 (dcgmDiagResponse_v11)
-
unsigned char numTests
此响应中包含的测试数量。
-
unsigned char numErrors
此响应中包含的错误数量。
-
unsigned char numInfo
此响应中包含的信息消息数量。
-
unsigned char numCategories
此响应中包含的类别数量。
-
unsigned short numEntities
此响应中包含的实体数量。
-
unsigned short numResults
此响应中包含的结果数量。
-
dcgmDiagTestRun_v1 tests[20]
每个相关测试的测试运行信息。
-
dcgmDiagEntity_v1 entities[1024]
每实体详情。
-
dcgmDiagError_v1 errors[32]
每实体错误。
-
dcgmDiagInfo_v1 info[16]
每实体信息消息。
-
dcgmDiagEntityResult_v1 results[(20 * 1024)]
每实体结果。
-
char categories[5][20]
插件类别列表。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[682880]
为了与 v10 及更早版本保持二进制兼容性而需要。
-
unsigned int version
-
struct dcgmDiagResponse_v10
- #include <dcgm_structs.h>
全局诊断结果结构体 v10。
自 DCGM 3.3.7 起
公共成员
-
unsigned int version
版本号 (dcgmDiagResponse_v10)
-
unsigned int gpuCount
有效的每 GPU 结果的数量
-
unsigned int levelOneTestCount
有效的一级结果的数量
-
dcgmDiagTestResult_v3 levelOneResults[16]
基本的、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v5 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_v2 systemError
NVVS 报告的系统级错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char devSerials[32][256]
设备的序列号。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
dcgmDiagTestAuxData_v1 auxDataPerTest[13]
每个测试返回的辅助数据。
-
unsigned int version
-
struct dcgmDiagResponse_v9
- #include <dcgm_structs.h>
全局诊断结果结构 v9。
自 DCGM 3.3 起
公共成员
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
有效的每 GPU 结果的数量
-
unsigned int levelOneTestCount
有效的一级结果的数量
-
dcgmDiagTestResult_v3 levelOneResults[16]
基本的、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v5 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_v2 systemError
NVVS 报告的系统级错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char devSerials[32][256]
设备的序列号。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[596]
不再使用。
-
unsigned int version
-
struct dcgmDiagResponse_v8
- #include <dcgm_structs.h>
全局诊断结果结构 v8。
自 DCGM 3.0 起
公共成员
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
有效的每 GPU 结果的数量
-
unsigned int levelOneTestCount
有效的一级结果的数量
-
dcgmDiagTestResult_v2 levelOneResults[16]
基本的、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v4 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_t systemError
NVVS 报告的系统级错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[596]
不再使用。
-
unsigned int version
-
struct dcgmDiagResponse_v7
- #include <dcgm_structs.h>
全局诊断结果结构 v7。
自 DCGM 2.4 起
公共成员
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
有效的每 GPU 结果的数量
-
unsigned int levelOneTestCount
有效的一级结果的数量
-
dcgmDiagTestResult_v2 levelOneResults[16]
基本的、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v3 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_t systemError
NVVS 报告的系统级错误。
-
char _unused[1024]
不再使用。
-
unsigned int version
-
struct dcgmDiagStatus_v1
- #include <dcgm_structs.h>
诊断实时状态结构 v1。
自 DCGM 4.0 起
-
struct dcgmDeviceTopology_v1
- #include <dcgm_structs.h>
设备拓扑信息。
公共成员
-
unsigned int version
版本号 (dcgmDeviceTopology_version)
-
unsigned long cpuAffinityMask[8]
指定 GPU 的亲缘性掩码
1 代表与该位位置的 CPU 亲缘性,最多支持 256 个核心
-
unsigned int numGpus
gpuPaths 中有效条目的数量
-
unsigned int gpuId
路径代表的 gpuId
-
dcgmGpuTopologyLevel_t path
从该 GPU 到 gpuId 的路径。
请注意,这是一个 DCGM_TOPOLOGY_* 值的位掩码,可以同时包含 PCIe 拓扑和 NvLink 拓扑(如果适用)。例如:0x210 = DCGM_TOPOLOGY_CPU | DCGM_TOPOLOGY_NVLINK2 使用宏 DCGM_TOPOLOGY_PATH_NVLINK 和 DCGM_TOPOLOGY_PATH_PCI 分别屏蔽 NvLink 和 PCI 路径。
-
unsigned int localNvLinkIds
表示连接到 gpuId 的本地链路的位,例如
如果此字段 == 3,则链路 0 和 1 已连接,仅当 GPU 之间实际存在 NVLINK 时,该字段才有效
-
unsigned int version
-
struct dcgmGroupTopology_v1
- #include <dcgm_structs.h>
组拓扑信息。
公共成员
-
unsigned int version
版本号 (dcgmGroupTopology_version)
-
unsigned long groupCpuAffinityMask[8]
组中所有 GPU 的 CPU 亲缘性掩码
1 代表与该位位置的 CPU 亲缘性,最多支持 256 个核心
-
unsigned int numaOptimalFlag
零值表示组中一个或多个 GPU 具有不同的 CPU 亲缘性,因此对于某些算法可能不是最佳的
-
dcgmGpuTopologyLevel_t slowestPath
组中 GPU 之间最慢的路径
-
unsigned int version
-
struct dcgmIntrospectMemory_v1
- #include <dcgm_structs.h>
DCGM 内存使用情况信息。
-
struct dcgmIntrospectCpuUtil_v1
- #include <dcgm_structs.h>
DCGM CPU 利用率信息。
将值乘以 100 即可得到百分比。
-
struct dcgmRunDiag_v7
公共成员
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断程序用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。不能与 gpuList 同时指定。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][100]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 同时指定。
-
char gpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 同时指定。
-
char debugLogFile[128]
要使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml 格式)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码。
或逗号分隔值 (CSV) 格式的原因列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断程序的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,提前失败检查应发生的频率。
-
unsigned int version
-
struct dcgmRunDiag_v8
公共成员
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断程序用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。不能与 gpuList 同时指定。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][1050]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 同时指定。
-
char gpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 同时指定。
-
char debugLogFile[128]
要使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml 格式)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码。
或逗号分隔值 (CSV) 格式的原因列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断程序的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,提前失败检查应发生的频率。
-
char expectedNumEntities[50]
诊断程序将要运行的预期实体数量。
-
unsigned int version
-
struct dcgmRunDiag_v9
公共成员
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断程序用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。
不能与 entityIds 同时指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][1050]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。
不能与 groupId 或 entityIds 同时指定。
-
char debugLogFile[128]
要使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml 格式)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码或。
逗号分隔值 (CSV) 格式的原因列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断程序的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,提前失败检查应发生的频率。
-
char expectedNumEntities[50]
诊断程序将要运行的预期实体数量。
-
char entityIds[2048]
逗号分隔的实体 ID 列表。
不能与 groupId 同时指定。
-
unsigned int watchFrequency
正在监视的字段的监视频率。
-
unsigned int version
-
struct dcgmRunDiag_v10
公共成员
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行诊断程序的二进制选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断程序用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。
不能与 entityIds 同时指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][1050]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。
不能与 groupId 或 entityIds 同时指定。
-
char debugLogFile[128]
要使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml 格式)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码或。
逗号分隔值 (CSV) 格式的原因列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断程序的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,提前失败检查应发生的频率。
-
char expectedNumEntities[50]
诊断程序将要运行的预期实体数量。
-
char entityIds[2048]
逗号分隔的实体 ID 列表。
不能与 groupId 同时指定。
-
unsigned int watchFrequency
正在监视的字段的监视频率。
-
char ignoreErrorCodes[512]
不同实体上要忽略的错误代码字符串。
-
unsigned int version
-
struct dcgmTopoSchedHint_v1
-
struct dcgmNvLinkGpuLinkStatus_v1
- #include <dcgm_structs.h>
GPU 的 NvLink 链路状态。
公共成员
-
dcgm_field_eid_t entityId
GPU 的实体 ID (gpuId)
-
dcgmNvLinkLinkState_t linkState[6]
每个 GPU 的链路状态。
-
dcgm_field_eid_t entityId
-
struct dcgmNvLinkGpuLinkStatus_v2
公共成员
-
dcgm_field_eid_t entityId
GPU 的实体 ID (gpuId)
-
dcgmNvLinkLinkState_t linkState[12]
每个 GPU 的链路状态。
-
dcgm_field_eid_t entityId
-
struct dcgmNvLinkGpuLinkStatus_v3
公共成员
-
dcgm_field_eid_t entityId
GPU 的实体 ID (gpuId)
-
dcgmNvLinkLinkState_t linkState[18]
每个 GPU 的链路状态。
-
dcgm_field_eid_t entityId
-
struct dcgmNvLinkNvSwitchLinkStatus_t
- #include <dcgm_structs.h>
NvSwitch 的 NvLink 链路状态。
公共成员
-
dcgm_field_eid_t entityId
NvSwitch 的实体 ID (physicalId)
-
dcgmNvLinkLinkState_t linkState[256]
每个 NvSwitch 的链路状态。
-
dcgm_field_eid_t entityId
-
struct dcgmNvLinkStatus_v4
- #include <dcgm_structs.h>
给定系统中所有 NvLink 的状态。
公共成员
-
unsigned int version
此请求的版本。应为 dcgmNvLinkStatus_version1。
-
unsigned int numGpus
gpus[] 中已填充条目的数量。
-
dcgmNvLinkGpuLinkStatus_v3 gpus[32]
每个 GPU 的 NvLink 链路状态。
-
unsigned int numNvSwitches
nvSwitches[] 中已填充条目的数量。
-
dcgmNvLinkNvSwitchLinkStatus_t nvSwitches[12]
每个 NvSwitch 的链路状态。
-
unsigned int version
-
struct dcgmSummaryResponse_t
公共成员
-
unsigned int fieldType
已汇总的字段类型 (int64 或 fp64)
-
union dcgmSummaryResponse_t::[anonymous] values[7]
用于存储每个摘要值的数组。
摘要按顺序存储。例如,如果请求了 MIN 和 MAX,则 0 将为 MIN,1 将为 MAX。如果请求了 AVG 和 DIFF,则 AVG 将为 0,1 将为 DIFF
-
unsigned int fieldType
-
struct dcgmFieldSummaryRequest_v1
公共成员
-
unsigned int version
此消息的版本 - dcgmFieldSummaryRequest_v1
-
unsigned short fieldId
要汇总的字段 ID
-
dcgm_field_entity_group_t entityGroupId
我们正在获取其字段的实体的类型
-
dcgm_field_eid_t entityId
此实体的序号 ID
-
uint32_t summaryTypeMask
DCGM_SUMMARY_* 的位掩码,请求的摘要
-
uint64_t startTime
要汇总的时间间隔的开始时间。
0 表示使用之前的任何数据。
-
uint64_t endTime
要汇总的时间间隔的结束时间。
0 表示使用之后的任何数据。
-
dcgmSummaryResponse_t response
此请求的响应数据
-
unsigned int version
-
struct dcgmModuleGetStatusesModule_t
- #include <dcgm_structs.h>
主机引擎的所有模块的状态。
-
struct dcgmModuleGetStatuses_v1
公共成员
-
unsigned int version
此请求的版本。应为 dcgmModuleGetStatuses_version1。
-
unsigned int numStatuses
statuses[] 中已填充条目的数量。
-
dcgmModuleGetStatusesModule_t statuses[16]
每个模块的状态信息。
-
unsigned int version
-
struct dcgmStartEmbeddedV2Params_v1
- #include <dcgm_structs.h>
dcgmStartEmbedded_v2 的选项。
在 DCGM 2.0.0 中添加
公共成员
-
unsigned int version
版本号。使用 dcgmStartEmbeddedV2Params_version1
-
dcgmOperationMode_t opMode
IN: 当用户请求时自动或手动收集数据。
-
dcgmHandle_t dcgmHandle
OUT: 用于 API 调用的 DCGM 句柄
-
const char *logFile
IN: DCGM 应记录到的文件。 NULL = 不记录。“-” = stdout
-
DcgmLoggingSeverity_t severity
IN: DCGM 应记录到 logFile 的严重级别
-
unsigned int denyListCount
IN: denyList[] 中的模块数
-
unsigned int version
-
struct dcgmStartEmbeddedV2Params_v2
- #include <dcgm_structs.h>
dcgmStartEmbeddedV2Params_v2 的选项。
在 DCGM 2.4.0 中添加,在 3.0.0 中重命名成员
公共成员
-
unsigned int version
版本号。使用 dcgmStartEmbeddedV2Params_version2
-
dcgmOperationMode_t opMode
IN: 当用户请求时自动或手动收集数据。
-
dcgmHandle_t dcgmHandle
OUT: 用于 API 调用的 DCGM 句柄
-
const char *logFile
IN: DCGM 应记录到的文件。 NULL = 不记录。“-” = stdout
-
DcgmLoggingSeverity_t severity
IN: DCGM 应记录到 logFile 的严重级别
-
unsigned int denyListCount
IN: 要添加到 denyList[] 拒绝列表中的模块数量
-
const char *serviceAccount
IN: 用于非特权进程的服务帐户
-
unsigned int denyList[DcgmModuleIdCount]
IN: 要添加到拒绝列表的模块 ID
-
unsigned int version
-
struct dcgmProfMetricGroupInfo_v2
- #include <dcgm_structs.h>
用于返回给定 groupId 可用的所有性能分析指标组的结构体。
-
struct dcgmProfGetMetricGroups_v3
输入参数
-
unsigned int version
此请求的版本。 应为 dcgmProfGetMetricGroups_version。
-
unsigned int unused
目前未使用。 设置为 0。
-
unsigned int gpuId
我们应该获取指标组的 GPU ID。
输出
-
unsigned int numMetricGroups
metricGroups[] 中已填充条目的数量。
-
dcgmProfMetricGroupInfo_v2 metricGroups[10]
每个指标组的信息。
-
unsigned int version
-
struct dcgmSettingsSetLoggingSeverity_v1
- #include <dcgm_structs.h>
dcgmSettingsSetLoggingSeverity_t 的版本 1。
-
struct dcgmSettingsSetLoggingSeverity_v2
- #include <dcgm_structs.h>
dcgmSettingsSetLoggingSeverity_t 的版本 2。
-
struct dcgmVersionInfo_v2
- #include <dcgm_structs.h>
用于描述 DCGM 构建环境版本 2.0 的结构体。
公共成员
-
char rawBuildInfoString[256 * 2]
DCGM 构建信息的原始形式。
可能有多个键值对,用分号 (;) 分隔。
每对键值对用冒号 (:) 分隔。 只有第一个冒号被视为分隔符。
值可以包含冒号字符。 值和键不能包含分号字符。
通常定义的键是
version : DCGM 版本。arch : 目标 DCGM 架构。buildid : 构建 ID。 通常是一个序列号。commit : 提交 ID(通常是 git 提交哈希值)。author : 上述提交的作者。branch : 分支(通常是用于构建的 git 分支)。buildtype : 构建类型。builddate : 构建日期。buildplatform : 构建平台。
任何或所有键都可能不存在。
这些值仅供参考,不应参与任何复杂的逻辑。
-
char rawBuildInfoString[256 * 2]
-
DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"