结构定义

group dcgmStructs

未命名组

DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"

运行 GPU 诊断的标志选项。

DCGM_RUN_FLAGS_VERBOSE 0x0001

在详细模式下输出;包括信息以及警告。

DCGM_RUN_FLAGS_STATSONFAIL 0x0002

仅在失败时输出统计信息。

DCGM_RUN_FLAGS_TRAIN 0x0004

未使用 训练 DCGM 诊断并输出包含黄金值的配置文件。

DCGM_RUN_FLAGS_FORCE_TRAIN 0x0008

未使用 忽略针对训练诊断的警告并强制训练。

DCGM_RUN_FLAGS_FAIL_EARLY 0x0010

为目标压力测试、目标电源测试、SM 压力测试和诊断测试启用提前失败检查。

未命名组

DCGM_TOPO_HINT_F_NONE 0x00000000

用于 dcgmSelectGpusByTopology() 的拓扑提示

未指定任何提示

DCGM_TOPO_HINT_F_IGNOREHEALTH 0x00000001

在为作业执行选择 GPU 时,忽略 GPU 的健康状况。

默认情况下,仅考虑健康的 GPU。

定义

dcgmConnectV2Params_version1 MAKE_DCGM_VERSION(dcgmConnectV2Params_v1, 1)

dcgmConnectV2Params_v1 的版本 1。

dcgmConnectV2Params_version2 MAKE_DCGM_VERSION(dcgmConnectV2Params_v2, 2)

dcgmConnectV2Params_v2 的版本 2。

dcgmConnectV2Params_version dcgmConnectV2Params_version2

dcgmConnectV2Params_t 的最新版本。

dcgmHostengineHealth_version1 MAKE_DCGM_VERSION(dcgmHostengineHealth_v1, 1)
dcgmHostengineHealth_version dcgmHostengineHealth_version1

dcgmHostengineHealth_t 的最新版本。

dcgmGroupInfo_version2 MAKE_DCGM_VERSION(dcgmGroupInfo_v2, 2)

dcgmGroupInfo_v2 的版本 2。

dcgmGroupInfo_version3 MAKE_DCGM_VERSION(dcgmGroupInfo_v3, 3)

dcgmGroupInfo_v3 的版本 3。

dcgmGroupInfo_version dcgmGroupInfo_version3

dcgmGroupInfo_t 的最新版本。

DCGM_MAX_INSTANCES_PER_GPU 8
DCGM_MAX_COMPUTE_INSTANCES_PER_GPU DCGM_MAX_INSTANCES_PER_GPU
DCGM_MAX_TOTAL_INSTANCES_PER_GPU 14
DCGM_MAX_HIERARCHY_INFO DCGM_MAX_NUM_DEVICES *DCGM_MAX_TOTAL_INSTANCES_PER_GPU
DCGM_MAX_INSTANCES DCGM_MAX_NUM_DEVICES *DCGM_MAX_INSTANCES_PER_GPU
DCGM_MAX_COMPUTE_INSTANCES DCGM_MAX_INSTANCES
dcgmMigHierarchy_version2 MAKE_DCGM_VERSION(dcgmMigHierarchy_v2, 2)
dcgmMigHierarchy_version dcgmMigHierarchy_version2
DCGM_CPU_CORE_BITMASK_COUNT_V1 (DCGM_MAX_NUM_CPU_CORES / sizeof(uint64_t) / CHAR_BIT)

指示此 CPU 拥有的内核的位掩码。

dcgmCpuHierarchyOwnedCores_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchyOwnedCores_v1, 1)
dcgmCpuHierarchy_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v1, 1)

dcgmCpuHierarchy_t 的版本 1。

dcgmCpuHierarchy_version2 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v2, 2)

dcgmCpuHierarchy_t 的版本 2。

dcgmCpuHierarchy_version dcgmCpuHierarchy_version2

dcgmCpuHierarchy_t 的最新版本。

DCGM_MAX_NUM_FIELD_GROUPS 64

可以存在的最大字段组数。

DCGM_MAX_FIELD_IDS_PER_FIELD_GROUP 128

单个字段组中可以包含的最大字段 ID 数。

dcgmFieldGroupInfo_version1 MAKE_DCGM_VERSION(dcgmFieldGroupInfo_v1, 1)

dcgmFieldGroupInfo_v1 的版本 1。

dcgmFieldGroupInfo_version dcgmFieldGroupInfo_version1

dcgmFieldGroupInfo_t 的最新版本。

dcgmAllFieldGroup_version1 MAKE_DCGM_VERSION(dcgmAllFieldGroup_v1, 1)

dcgmAllFieldGroup_v1 的版本 1。

dcgmAllFieldGroup_version dcgmAllFieldGroup_version1

dcgmAllFieldGroup_t 的最新版本。

dcgmClockSet_version1 MAKE_DCGM_VERSION(dcgmClockSet_v1, 1)

dcgmClockSet_v1 的版本 1。

dcgmClockSet_version dcgmClockSet_version1

dcgmClockSet_t 的最新版本。

dcgmDeviceSupportedClockSets_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedClockSets_v1, 1)

dcgmDeviceSupportedClockSets_v1 的版本 1。

dcgmDeviceSupportedClockSets_version dcgmDeviceSupportedClockSets_version1

dcgmDeviceSupportedClockSets_t 的最新版本。

dcgmDevicePidAccountingStats_version1 MAKE_DCGM_VERSION(dcgmDevicePidAccountingStats_v1, 1)

dcgmDevicePidAccountingStats_v1 的版本 1。

dcgmDevicePidAccountingStats_version dcgmDevicePidAccountingStats_version1

dcgmDevicePidAccountingStats_t 的最新版本。

dcgmDeviceThermals_version1 MAKE_DCGM_VERSION(dcgmDeviceThermals_v1, 1)

dcgmDeviceThermals_v1 的版本 1。

dcgmDeviceThermals_version dcgmDeviceThermals_version1

dcgmDeviceThermals_t 的最新版本。

dcgmDevicePowerLimits_version1 MAKE_DCGM_VERSION(dcgmDevicePowerLimits_v1, 1)

dcgmDevicePowerLimits_v1 的版本 1。

dcgmDevicePowerLimits_version dcgmDevicePowerLimits_version1

dcgmDevicePowerLimits_t 的最新版本。

dcgmDeviceIdentifiers_version1 MAKE_DCGM_VERSION(dcgmDeviceIdentifiers_v1, 1)

dcgmDeviceIdentifiers_v1 的版本 1。

dcgmDeviceIdentifiers_version dcgmDeviceIdentifiers_version1

dcgmDeviceIdentifiers_t 的最新版本。

dcgmDeviceMemoryUsage_version1 MAKE_DCGM_VERSION(dcgmDeviceMemoryUsage_v1, 1)

dcgmDeviceMemoryUsage_v1 的版本 1。

dcgmDeviceMemoryUsage_version dcgmDeviceMemoryUsage_version1

dcgmDeviceMemoryUsage_t 的最新版本。

dcgmDeviceVgpuUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuUtilInfo_v1, 1)

dcgmDeviceVgpuUtilInfo_v1 的版本 1。

dcgmDeviceVgpuUtilInfo_version dcgmDeviceVgpuUtilInfo_version1

dcgmDeviceVgpuUtilInfo_t 的最新版本。

dcgmDeviceEncStats_version1 MAKE_DCGM_VERSION(dcgmDeviceEncStats_v1, 1)

dcgmDeviceEncStats_v1 的版本 1。

dcgmDeviceEncStats_version dcgmDeviceEncStats_version1


Version 1 for dcgmDeviceFbcStats_v1



Version 1 for dcgmDeviceFbcSessionInfo_v1


Latest version for dcgmDeviceFbcSessionInfo_t


Version 1 for dcgmDeviceFbcSessions_v1


Latest version for dcgmDeviceFbcSessions_t


Version 1 for dcgmDeviceVgpuEncSessions_v1


Latest version for dcgmDeviceVgpuEncSessions_t


Version 1 for dcgmDeviceVgpuProcessUtilInfo_v1


Latest version for dcgmDeviceVgpuProcessUtilInfo_t


Version 1 for dcgmDeviceVgpuTypeInfo_v1


Version 2 for dcgmDeviceVgpuTypeInfo_v2


Latest version for dcgmDeviceVgpuTypeInfo_t


Version 1 for dcgmDeviceSupportedVgpuTypeInfo_v1


Latest version for dcgmDeviceSupportedVgpuTypeInfo_t




Version 3 for dcgmDeviceAttributes_v3


Latest version for dcgmDeviceAttributes_t


Version 1 for dcgmDeviceMigAttributesInfo_v1


Latest version for dcgmDeviceMigAttributesInfo_t


Version 1 for dcgmDeviceMigAttributes_v1


Latest version for dcgmDeviceMigAttributes_t


Version 1 for dcgmGpuInstanceProfileInfo_v1


Latest version for dcgmGpuInstanceProfileInfo_t


Version 1 for dcgmGpuInstanceProfiles_v1


Latest version for dcgmGpuInstanceProfiles_t


Version 1 for dcgmComputeInstanceProfileInfo_v1


Latest version for dcgmComputeInstanceProfileInfo_t


Version 1 for dcgmComputeInstanceProfiles_v1


Latest version for dcgmComputeInstanceProfiles_t


Maximum number of vGPU types per physical GPU.


Represents the size of a buffer that holds string related to attributes specific to vGPU instance.


Workload power profile information.










Version 1 for dcgmConfig_v1



Latest version for dcgmConfig_t






Version 1 for dcgmPolicy_v1


Latest version for dcgmPolicy_t


Version 2 for dcgmPolicyCallbackResponse_v2


Latest version for dcgmPolicyCallbackResponse_t


Set above size of largest blob entry.

Currently this is dcgmDeviceVgpuTypeInfo_v1


Version 1 for dcgmFieldValue_v1


Version 2 for dcgmFieldValue_v2


Field value flags used by dcgmEntitiesGetLatestValues

Retrieve live data from the driver rather than cached data. Warning: Setting this flag will result in multiple calls to the NVIDIA driver that will be much slower than retrieving a cached value.


For iterating through the dcgmHealthSystems_v1 enum


For iterating through the dcgmHealthSystems_v2 enum




Version 1 for dcgmDiagTestAuxData_v1



The maximum number of per-entity errors that can be reported.


The maximum number of per-entity info msgs that can be reported.


The maximum number of per-entity results that can be reported.


The maximum number of characters (including ‘\0’) used for a name.


SKU Device ID (string)


DCGM Version (string)



Version 5 for dcgmHealthResponse_v5


Latest version for dcgmHealthResponse_t


Version 2 for dcgmHealthSet_v2



Version 2 for dcgmPidInfo_v2


Latest version for dcgmPidInfo_t


Version 3 for dcgmJobInfo_v3


Latest version for dcgmJobInfo_t


Version 1 for dcgmRunningProcess_v1


Latest version for dcgmRunningProcess_t









Maximum number of plugins that can return results.


Used to flag an error as a system error.


Maximum number of errors that can be reported.

This must match DCGM_DIAG_PLUGINRUN_ERROR_INDICES_MAX.


Maximum number of info msgs that can be reported.

This must match DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX.

DCGM_DIAG_RESPONSE_ENTITIES_MAX DCGM_GROUP_MAX_ENTITIES_V2

可以报告的最大实体数量。

DCGM_DIAG_RESPONSE_RESULTS_MAX     (DCGM_DIAG_RESPONSE_TESTS_MAX

\

*

DCGM_DIAG_RESPONSE_ENTITIES_MAX)

可以报告的最大结果数量。

DCGM_DIAG_RESPONSE_CATEGORIES_MAX 5

部署 | 硬件 | 集成 | 压力 四者之一。

DCGM_DIAG_RESPONSE_CATEGORY_LEN 20

每个类别的字节数(包括 ‘\0’)。

DCGM_DIAG_RESPONSE_V11_UNUSED_LEN     682880

diagResponse_v11 中的未使用字节,用于与 v10 及更早版本兼容。

dcgmDiagResponse_version11 MAKE_DCGM_VERSION(dcgmDiagResponse_v11, 11)

dcgmDiagResponse_v11 的版本 11。

dcgmDiagResponse_version10 MAKE_DCGM_VERSION(dcgmDiagResponse_v10, 10)

dcgmDiagResponse_v11 的版本 10。

dcgmDiagResponse_version9 MAKE_DCGM_VERSION(dcgmDiagResponse_v9, 9)

dcgmDiagResponse_v9 的版本 9。

dcgmDiagResponse_version8 MAKE_DCGM_VERSION(dcgmDiagResponse_v8, 8)

dcgmDiagResponse_v8 的版本 8。

dcgmDiagResponse_version7 MAKE_DCGM_VERSION(dcgmDiagResponse_v7, 7)

dcgmDiagResponse_v7 的版本 7。

dcgmDiagResponse_version dcgmDiagResponse_version11

dcgmDiagResponse_t 的最新版本。

dcgmDiagStatus_version1 MAKE_DCGM_VERSION(dcgmDiagStatus_v1, 1)

dcgmDiagStatus_v1 的版本 1。

dcgmDiagStatus_version dcgmDiagStatus_version1

dcgmDiagStatus_t 的最新版本。

DCGM_TOPOLOGY_PATH_PCI(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFF)
DCGM_AFFINITY_BITMASK_ARRAY_SIZE 8
dcgmDeviceTopology_version1 MAKE_DCGM_VERSION(dcgmDeviceTopology_v1, 1)

dcgmDeviceTopology_v1 的版本 1。

dcgmDeviceTopology_version dcgmDeviceTopology_version1

dcgmDeviceTopology_t 的最新版本。

dcgmGroupTopology_version1 MAKE_DCGM_VERSION(dcgmGroupTopology_v1, 1)

dcgmGroupTopology_v1 的版本 1。

dcgmGroupTopology_version dcgmGroupTopology_version1

dcgmGroupTopology_t 的最新版本。

dcgmIntrospectMemory_version1 MAKE_DCGM_VERSION(dcgmIntrospectMemory_v1, 1)

dcgmIntrospectMemory_t 的版本 1。

dcgmIntrospectMemory_version dcgmIntrospectMemory_version1

dcgmIntrospectMemory_t 的最新版本。

dcgmIntrospectCpuUtil_version1 MAKE_DCGM_VERSION(dcgmIntrospectCpuUtil_v1, 1)

dcgmIntrospectCpuUtil_t 的版本 1。

dcgmIntrospectCpuUtil_version dcgmIntrospectCpuUtil_version1

dcgmIntrospectCpuUtil_t 的最新版本。

DCGM_MAX_CONFIG_FILE_LEN 10000
DCGM_MAX_TEST_NAMES 20
DCGM_MAX_TEST_NAMES_LEN 50
DCGM_MAX_TEST_PARMS 100
DCGM_MAX_TEST_PARMS_LEN 100
DCGM_MAX_TEST_PARMS_LEN_V2 1050
DCGM_GPU_LIST_LEN 50
DCGM_ENTITY_ID_LIST_LEN 2048
DCGM_EXPECTED_ENTITIES_LEN 50
DCGM_FILE_LEN 30
DCGM_PATH_LEN 128
DCGM_CLOCKS_EVENT_MASK_LEN 50
DCGM_IGNORE_ERROR_MAX_LEN 512
DCGM_THROTTLE_MASK_LEN DCGM_CLOCKS_EVENT_MASK_LEN
dcgmRunDiag_version7 MAKE_DCGM_VERSION(dcgmRunDiag_v7, 7)

dcgmRunDiag_t 的版本 7。

dcgmRunDiag_version8 MAKE_DCGM_VERSION(dcgmRunDiag_v8, 8)

dcgmRunDiag_t 的版本 8。

dcgmRunDiag_version9 MAKE_DCGM_VERSION(dcgmRunDiag_v9, 9)

dcgmRunDiag_t 的版本 9。

dcgmRunDiag_version10 MAKE_DCGM_VERSION(dcgmRunDiag_v10, 10)

dcgmRunDiag_t 的版本 10。

DCGM_GEGE_FLAG_ONLY_SUPPORTED 0x00000001

dcgmGetEntityGroupEntities 的 flags 参数的标志。

仅返回 DCGM 支持的实体。 这模拟了 dcgmGetAllSupportedDevices() 的行为。

dcgmTopoSchedHint_version1 MAKE_DCGM_VERSION(dcgmTopoSchedHint_v1, 1)
dcgmNvLinkStatus_version4 MAKE_DCGM_VERSION(dcgmNvLinkStatus_v4, 4)

dcgmNvLinkStatus 的版本 4。

DCGM_SUMMARY_MIN 0x00000001
DCGM_SUMMARY_MAX 0x00000002
DCGM_SUMMARY_AVG 0x00000004
DCGM_SUMMARY_SUM 0x00000008
DCGM_SUMMARY_COUNT 0x00000010
DCGM_SUMMARY_INTEGRAL 0x00000020
DCGM_SUMMARY_DIFF 0x00000040
DCGM_SUMMARY_SIZE 7
dcgmFieldSummaryRequest_version1 MAKE_DCGM_VERSION(dcgmFieldSummaryRequest_v1, 1)
DCGM_MODULE_STATUSES_CAPACITY 16
dcgmModuleGetStatuses_version1 MAKE_DCGM_VERSION(dcgmModuleGetStatuses_v1, 1)

dcgmModuleGetStatuses 的版本 1。

dcgmModuleGetStatuses_version dcgmModuleGetStatuses_version1
dcgmStartEmbeddedV2Params_version1 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v1, 1)

dcgmStartEmbeddedV2Params_v1 的版本 1。

dcgmStartEmbeddedV2Params_version2 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v2, 2)

dcgmStartEmbeddedV2Params 的版本 2。

DCGM_PROF_MAX_NUM_GROUPS_V2 10

DCGM 中可以存在的最大指标 ID 组数。

DCGM_PROF_MAX_FIELD_IDS_PER_GROUP_V2 64

单个 DCGM 性能分析指标组中可以包含的最大字段 ID 数。

dcgmProfGetMetricGroups_version3 MAKE_DCGM_VERSION(dcgmProfGetMetricGroups_v3, 3)

dcgmProfGetMetricGroups_t 的版本 3。

不支持旧版本

dcgmProfGetMetricGroups_version dcgmProfGetMetricGroups_version3
dcgmSettingsSetLoggingSeverity_version1 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v1, 1)
dcgmSettingsSetLoggingSeverity_version2 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v2, 2)
dcgmSettingsSetLoggingSeverity_version dcgmSettingsSetLoggingSeverity_version2
dcgmVersionInfo_version2 MAKE_DCGM_VERSION(dcgmVersionInfo_v2, 2)

dcgmVersionInfo_v2 的版本 2。

dcgmVersionInfo_version dcgmVersionInfo_version2

类型定义

typedef uintptr_t dcgmHandle_t

DCGM 句柄的标识符。

typedef uintptr_t dcgmGpuGrp_t

GPU 组的标识符。 一个组可以包含一个或多个 GPU。

typedef uintptr_t dcgmFieldGrp_t

字段组的标识符。

typedef uintptr_t dcgmStatus_t

状态代码列表的标识符。

表示链接对象。

类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一; gpuId 或 switchID 是关联的 gpu 或交换机; index 是链接索引,从 0 开始,TX(偶数)在 RX(奇数)之前。

typedef dcgmConnectV2Params_v2 dcgmConnectV2Params_t

dcgmConnectV2Params_v2 的类型定义。

typedef dcgmHostengineHealth_v1 dcgmHostengineHealth_t

dcgmHostengineHealth_t 的类型定义。

typedef dcgmGroupInfo_v3 dcgmGroupInfo_t

dcgmGroupInfo_v3 的类型定义。

typedef dcgmCpuHierarchyOwnedCores_v1 dcgmCpuHierarchyOwnedCores_t
typedef dcgmCpuHierarchy_v2 dcgmCpuHierarchy_t
typedef dcgmFieldGroupInfo_v1 dcgmFieldGroupInfo_t
typedef dcgmAllFieldGroup_v1 dcgmAllFieldGroup_t
typedef dcgmClockSet_v1 dcgmClockSet_t

dcgmClockSet_v1 的类型定义。

typedef dcgmDeviceSupportedClockSets_v1 dcgmDeviceSupportedClockSets_t

dcgmDeviceSupportedClockSets_v1 的类型定义。

typedef dcgmDevicePidAccountingStats_v1 dcgmDevicePidAccountingStats_t

typedef dcgmDevicePidAccountingStats_v1 的类型定义。

typedef dcgmDeviceThermals_v1 dcgmDeviceThermals_t

typedef dcgmDeviceThermals_v1 的类型定义。

typedef dcgmDevicePowerLimits_v1 dcgmDevicePowerLimits_t

typedef dcgmDevicePowerLimits_v1 的类型定义。

typedef dcgmDeviceIdentifiers_v1 dcgmDeviceIdentifiers_t

typedef dcgmDeviceIdentifiers_v1 的类型定义。

typedef dcgmDeviceMemoryUsage_v1 dcgmDeviceMemoryUsage_t

typedef dcgmDeviceMemoryUsage_v1 的类型定义。

typedef dcgmDeviceVgpuUtilInfo_v1 dcgmDeviceVgpuUtilInfo_t

typedef dcgmDeviceVgpuUtilInfo_v1 的类型定义。

typedef dcgmDeviceEncStats_v1 dcgmDeviceEncStats_t

typedef dcgmDeviceEncStats_v1 的类型定义。

typedef dcgmDeviceFbcStats_v1 dcgmDeviceFbcStats_t

typedef dcgmDeviceFbcStats_v1 的类型定义。

typedef enum dcgmFBCSessionType_enum dcgmFBCSessionType_t
typedef dcgmDeviceFbcSessionInfo_v1 dcgmDeviceFbcSessionInfo_t

typedef dcgmDeviceFbcSessionInfo_v1 的类型定义。

typedef dcgmDeviceFbcSessions_v1 dcgmDeviceFbcSessions_t

typedef dcgmDeviceFbcSessions_v1 的类型定义。

typedef enum dcgmEncoderQueryType_enum dcgmEncoderType_t
typedef dcgmDeviceVgpuEncSessions_v1 dcgmDeviceVgpuEncSessions_t

typedef dcgmDeviceVgpuEncSessions_v1 的类型定义。

typedef dcgmDeviceVgpuProcessUtilInfo_v1 dcgmDeviceVgpuProcessUtilInfo_t

typedef dcgmDeviceVgpuProcessUtilInfo_v1 的类型定义。

typedef dcgmDeviceVgpuTypeInfo_v2 dcgmDeviceVgpuTypeInfo_t

typedef dcgmDeviceVgpuTypeInfo_v2 的类型定义。

typedef dcgmDeviceSupportedVgpuTypeInfo_v1 dcgmDeviceSupportedVgpuTypeInfo_t

typedef dcgmDeviceSupportedVgpuTypeInfo_v1 的类型定义。

typedef dcgmDeviceSettings_v2 dcgmDeviceSettings_t
typedef dcgmDeviceAttributes_v3 dcgmDeviceAttributes_t

typedef dcgmDeviceAttributes_v3 的类型定义。

typedef dcgmDeviceMigAttributesInfo_v1 dcgmDeviceMigAttributesInfo_t

typedef dcgmDeviceMigAttributesInfo_v1 的类型定义。

typedef dcgmDeviceMigAttributes_v1 dcgmDeviceMigAttributes_t

typedef dcgmDeviceMigAttributes_v1 的类型定义。

typedef dcgmGpuInstanceProfileInfo_v1 dcgmGpuInstanceProfileInfo_t

typedef dcgmGpuInstanceProfileInfo_v1 的类型定义。

typedef dcgmGpuInstanceProfiles_v1 dcgmGpuInstanceProfiles_t

typedef dcgmGpuInstanceProfiles_v1 的类型定义。

typedef dcgmComputeInstanceProfileInfo_v1 dcgmComputeInstanceProfileInfo_t

typedef dcgmComputeInstanceProfileInfo_v1 的类型定义。

typedef dcgmComputeInstanceProfiles_v1 dcgmComputeInstanceProfiles_t

typedef dcgmComputeInstanceProfiles_v1 的类型定义。

typedef dcgmWorkloadPowerProfileInfo_v1 dcgmWorkloadPowerProfileInfo_t
typedef dcgmWorkloadPowerProfileProfilesInfo_v1 dcgmWorkloadPowerProfileProfilesInfo_t
typedef dcgmDeviceWorkloadPowerProfilesStatus_v1 dcgmDeviceWorkloadPowerProfilesStatus_t
typedef dcgmConfig_v2 dcgmConfig_t

typedef dcgmConfig_v1 的类型定义。

typedef dcgmPolicyViolation_v1 dcgmPolicyViolation_t
typedef enum dcgmPolicyConditionIdx_enum dcgmPolicyConditionIdx_t

策略条件的枚举。

当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值

typedef enum dcgmPolicyCondition_enum dcgmPolicyCondition_t

策略条件的位掩码枚举。

当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值

typedef struct dcgmPolicyConditionParams_st dcgmPolicyConditionParams_t

策略条件参数的结构体。

此结构体包含一个标签,表示作为参数传递的值的类型,以及一个 “val”,它是可能的值类型的联合。例如,要传递一个 true 布尔值:tag = BOOL,val.boolean = 1。

typedef enum dcgmPolicyMode_enum dcgmPolicyMode_t

策略模式的枚举。

typedef enum dcgmPolicyIsolation_enum dcgmPolicyIsolation_t

策略隔离模式的枚举。

typedef enum dcgmPolicyAction_enum dcgmPolicyAction_t

策略动作的枚举。

typedef enum dcgmPolicyValidation_enum dcgmPolicyValidation_t

策略验证动作的枚举。

typedef enum dcgmPolicyFailureResp_enum dcgmPolicyFailureResp_t

策略失败响应的枚举。

typedef dcgmPolicy_v1 dcgmPolicy_t

typedef dcgmPolicy_v1 的类型定义。

typedef dcgmPolicyCallbackResponse_v2 dcgmPolicyCallbackResponse_t

typedef dcgmPolicyCallbackResponse_v2 的类型定义。

typedef int (*fpRecvUpdates)(dcgmPolicyCallbackResponse_t *response, uint64_t userData)

表示从异步函数接收更新的回调。

当前唯一实现的回调函数是 dcgmPolicyRegister_v2。

typedef int (*dcgmFieldValueEnumeration_f)(unsigned int gpuId, dcgmFieldValue_v1 *values, int numValues, void *userData)

用于处理一个或多个字段更新的用户回调函数。

此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改

Param gpuId

IN:此字段值集所属的 GPU 的 GPU ID

Param values

IN:字段值。这些值必须被复制,因为它们将在该调用返回后立即被销毁。

Param numValues

IN:values[] 中有效的条目数

Param userData

IN:传递给生成此回调的更新函数的用户数据指针

Return

0 表示正常,<0 表示枚举应停止。这允许被调用者中止字段值枚举。

typedef int (*dcgmFieldValueEntityEnumeration_f)(dcgm_field_entity_group_t entityGroupId, dcgm_field_eid_t entityId, dcgmFieldValue_v1 *values, int numValues, void *userData)

用于处理一个或多个字段更新的用户回调函数。

此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改

Param entityGroupId

IN:此字段值集所属的实体的 entityGroup

Param entityId

IN:此字段值集所属的实体

Param values

IN:字段值。这些值必须被复制,因为它们将在该调用返回后立即被销毁。

Param numValues

IN:values[] 中有效的条目数

Param userData

IN:传递给生成此回调的更新函数的用户数据指针

Return

0 表示正常,<0 表示枚举应停止。这允许被调用者中止字段值枚举。

typedef enum dcgmHealthSystems_enum dcgmHealthSystems_t

用于启用或禁用健康监控系统的系统结构。

typedef enum dcgmHealthWatchResult_enum dcgmHealthWatchResults_t

健康监控测试结果。

typedef enum dcgmDiagResult_enum dcgmDiagResult_t

诊断测试结果。

typedef dcgmHealthResponse_v5 dcgmHealthResponse_t

typedef dcgmHealthResponse_v5 的类型定义。

typedef dcgmPidInfo_v2 dcgmPidInfo_t

typedef dcgmPidInfo_v2 的类型定义。

typedef dcgmJobInfo_v3 dcgmJobInfo_t

typedef dcgmJobInfo_v3 的类型定义。

typedef dcgmRunningProcess_v1 dcgmRunningProcess_t

typedef dcgmRunningProcess_v1 的类型定义。

typedef enum dcgmPerGpuTestIndices_enum dcgmPerGpuTestIndices_t

每个 GPU 测试的诊断 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。

typedef enum dcgmSoftwareTest_enum dcgmSoftwareTest_t
typedef dcgmDiagResponse_v11 dcgmDiagResponse_t

typedef dcgmDiagResponse_v11 的类型定义。

typedef dcgmDiagStatus_v1 dcgmDiagStatus_t
typedef enum dcgmGpuLevel_enum dcgmGpuTopologyLevel_t

表示系统中两个 GPU 之间级别关系的级别。枚举值之间留有间隔,以便将来扩展关系。

这些与 nvml.h 中的定义匹配

typedef dcgmDeviceTopology_v1 dcgmDeviceTopology_t

typedef dcgmDeviceTopology_v1 的类型定义。

typedef dcgmGroupTopology_v1 dcgmGroupTopology_t

typedef dcgmGroupTopology_v1 的类型定义。

typedef dcgmIntrospectMemory_v1 dcgmIntrospectMemory_t

typedef dcgmIntrospectMemory_t 的类型定义。

typedef dcgmIntrospectCpuUtil_v1 dcgmIntrospectCpuUtil_t

typedef dcgmIntrospectCpuUtil_t 的类型定义。

typedef enum dcgmGpuNVLinkErrorType_enum dcgmGpuNVLinkErrorType_t

标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。

typedef dcgmTopoSchedHint_v1 dcgmTopoSchedHint_t
typedef enum dcgmNvLinkLinkState_enum dcgmNvLinkLinkState_t

NvLink 链路状态。

typedef dcgmNvLinkStatus_v4 dcgmNvLinkStatus_t
typedef dcgmFieldSummaryRequest_v1 dcgmFieldSummaryRequest_t
typedef dcgmModuleGetStatuses_v1 dcgmModuleGetStatuses_t
typedef dcgmProfGetMetricGroups_v3 dcgmProfGetMetricGroups_t
typedef dcgmSettingsSetLoggingSeverity_v2 dcgmSettingsSetLoggingSeverity_t
typedef dcgmVersionInfo_v2 dcgmVersionInfo_t

枚举

enum DcgmLoggingSeverity_t

DCGM 日志记录严重级别。

这些级别与 Severity.h 中定义的 plog 严重级别相匹配。每个级别都包含其上方所有级别。例如,级别 4 也包含 3、2 和 1。

enumerator DcgmLoggingSeverityUnspecified

不在意/从环境继承

enumerator DcgmLoggingSeverityNone

不记录日志

enumerator DcgmLoggingSeverityFatal

致命错误

enumerator DcgmLoggingSeverityError

错误

enumerator DcgmLoggingSeverityWarning

警告

enumerator DcgmLoggingSeverityInfo

信息性

enumerator DcgmLoggingSeverityDebug

调试信息(将生成大型日志)

enumerator DcgmLoggingSeverityVerbose

详细调试信息

enum dcgmMigProfile_t

用于不同类型 MIG 配置文件的枚举。

enumerator DcgmMigProfileNone

无配置文件(用于 GPU)

enumerator DcgmMigProfileGpuInstanceSlice1

GPU 实例切片 1

enumerator DcgmMigProfileGpuInstanceSlice2

GPU 实例切片 2

enumerator DcgmMigProfileGpuInstanceSlice3

GPU 实例切片 3

enumerator DcgmMigProfileGpuInstanceSlice4

GPU 实例切片 4

enumerator DcgmMigProfileGpuInstanceSlice7

GPU 实例切片 7

enumerator DcgmMigProfileGpuInstanceSlice8

GPU 实例切片 8

enumerator DcgmMigProfileGpuInstanceSlice6

GPU 实例切片 6

enumerator DcgmMigProfileGpuInstanceSlice1Rev1

GPU 实例切片 1 修订版 1

enumerator DcgmMigProfileGpuInstanceSlice2Rev1

GPU 实例切片 2 修订版 1

enumerator DcgmMigProfileGpuInstanceSlice1Rev2

GPU 实例切片 1 修订版 2

enumerator DcgmMigProfileGpuInstanceSlice1GFX

GPU 实例切片 1 GFX

enumerator DcgmMigProfileGpuInstanceSlice2GFX

GPU 实例切片 2 GFX

enumerator DcgmMigProfileGpuInstanceSlice4GFX

GPU 实例切片 4 GFX

enumerator DcgmMigProfileComputeInstanceSlice1

计算实例切片 1

enumerator DcgmMigProfileComputeInstanceSlice2

计算实例切片 2

enumerator DcgmMigProfileComputeInstanceSlice3

计算实例切片 3

enumerator DcgmMigProfileComputeInstanceSlice4

计算实例切片 4

enumerator DcgmMigProfileComputeInstanceSlice7

计算实例切片 7

enumerator DcgmMigProfileComputeInstanceSlice8

计算实例切片 8

enumerator DcgmMigProfileComputeInstanceSlice6

计算实例切片 6

enumerator DcgmMigProfileComputeInstanceSlice1Rev1

计算实例切片 1 修订版 1

enum dcgmFBCSessionType_enum

enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN

未知。

enumerator DCGM_FBC_SESSION_TYPE_TOSYS

用于系统缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_CUDA

用于 CUDA 缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_VID

用于 Vid 缓冲区的 FB 捕获。

enumerator DCGM_FBC_SESSION_TYPE_HWENC

用于 NVENC HW 缓冲区的 FB 捕获。

enum dcgmEncoderQueryType_enum

enumerator DCGM_ENCODER_QUERY_H264
enumerator DCGM_ENCODER_QUERY_HEVC
enum dcgmPowerProfileType_t

enumerator DCGM_POWER_PROFILE_MAX_P
enumerator DCGM_POWER_PROFILE_MAX_Q
enumerator DCGM_POWER_PROFILE_COMPUTE
enumerator DCGM_POWER_PROFILE_MEMORY_BOUND
enumerator DCGM_POWER_PROFILE_NETWORK
enumerator DCGM_POWER_PROFILE_BALANCED
enumerator DCGM_POWER_PROFILE_LLM_INFERENCE
enumerator DCGM_POWER_PROFILE_LLM_TRAINING
enumerator DCGM_POWER_PROFILE_RBM
enumerator DCGM_POWER_PROFILE_DCPCIE
enumerator DCGM_POWER_PROFILE_HMMA_SPARSE
enumerator DCGM_POWER_PROFILE_HMMA_DENSE
enumerator DCGM_POWER_PROFILE_SYNC_BALANCED
enumerator DCGM_POWER_PROFILE_HPC
enumerator DCGM_POWER_PROFILE_MIG
enumerator DCGM_POWER_PROFILE_MAX
enum dcgmPolicyConditionIdx_enum

策略条件的枚举。

当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值

enumerator DCGM_POLICY_COND_IDX_DBE

双位错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_PCI

PCI 事件/错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_MAX_PAGES_RETIRED

最大退休页数 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_IDX_THERMAL

热违规 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_IDX_POWER

电源违规 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_IDX_NVLINK

NVLINK 错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_IDX_XID

XID 错误 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enum dcgmPolicyCondition_enum

策略条件的位掩码枚举。

当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值

enumerator DCGM_POLICY_COND_DBE

双位错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_PCI

PCI 事件/错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_MAX_PAGES_RETIRED

最大退休页数 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_THERMAL

热违规 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_POWER

电源违规 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enumerator DCGM_POLICY_COND_NVLINK

NVLINK 错误 &#8212; dcgmPolicyConditionParams_t 中的布尔值。

enumerator DCGM_POLICY_COND_XID

XID 错误 &#8212; dcgmPolicyConditionParams_t 中需要的数字。

enum dcgmPolicyMode_enum

策略模式的枚举。

enumerator DCGM_POLICY_MODE_AUTOMATED

自动模式

enumerator DCGM_POLICY_MODE_MANUAL

手动模式

enum dcgmPolicyIsolation_enum

策略隔离模式的枚举。

enumerator DCGM_POLICY_ISOLATION_NONE

错误时不对 GPU 进行隔离

enum dcgmPolicyAction_enum

策略动作的枚举。

enumerator DCGM_POLICY_ACTION_NONE

无操作

enumerator DCGM_POLICY_ACTION_GPURESET

已弃用 - 违反时执行 GPU 重置。

enum dcgmPolicyValidation_enum

策略验证动作的枚举。

enumerator DCGM_POLICY_VALID_NONE

执行操作后不进行验证

enumerator DCGM_POLICY_VALID_SV_SHORT

故障后在系统上运行短系统验证

enumerator DCGM_POLICY_VALID_SV_MED

故障后运行中等系统验证测试

enumerator DCGM_POLICY_VALID_SV_LONG

故障后运行广泛的系统验证测试

enumerator DCGM_POLICY_VALID_SV_XLONG

在失败后运行更全面的系统验证测试

enum dcgmPolicyFailureResp_enum

策略失败响应的枚举。

enumerator DCGM_POLICY_FAILURE_NONE

验证失败时不执行任何操作

enum dcgmHealthSystems_enum

用于启用或禁用健康监控系统的系统结构。

enumerator DCGM_HEALTH_WATCH_PCIE

PCIe 系统监视 (查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_NVLINK

NVLINK 系统监视。

enumerator DCGM_HEALTH_WATCH_PMU

电源管理单元监视。

enumerator DCGM_HEALTH_WATCH_MCU

微控制器单元监视。

enumerator DCGM_HEALTH_WATCH_MEM

内存监视。

enumerator DCGM_HEALTH_WATCH_SM

流式多处理器监视。

enumerator DCGM_HEALTH_WATCH_INFOROM

Inforom 监视。

enumerator DCGM_HEALTH_WATCH_THERMAL

温度监视 (查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_POWER

功耗监视 (查询前必须有 1 分钟的数据)

enumerator DCGM_HEALTH_WATCH_DRIVER

驱动程序相关监视。

enumerator DCGM_HEALTH_WATCH_NVSWITCH_NONFATAL

NvSwitch 中的非致命错误。

enumerator DCGM_HEALTH_WATCH_NVSWITCH_FATAL

NvSwitch 中的致命错误。

enumerator DCGM_HEALTH_WATCH_ALL

启用所有监视。

enum dcgmHealthWatchResult_enum

健康监控测试结果。

enumerator DCGM_HEALTH_RESULT_PASS

此系统中的所有结果均报告正常。

enumerator DCGM_HEALTH_RESULT_WARN

已发出警告,请参阅响应以获取更多信息。

enumerator DCGM_HEALTH_RESULT_FAIL

已发出故障,请参阅响应以获取更多信息。

enum dcgmDiagResult_enum

诊断测试结果。

enumerator DCGM_DIAG_RESULT_PASS

此测试作为诊断通过。

enumerator DCGM_DIAG_RESULT_SKIP

此测试被跳过。

enumerator DCGM_DIAG_RESULT_WARN

此测试通过,但有警告。

enumerator DCGM_DIAG_RESULT_FAIL

此测试诊断失败。

enumerator DCGM_DIAG_RESULT_NOT_RUN

此测试未执行。

enum dcgmDiagnosticLevel_t

诊断级别的枚举。

enumerator DCGM_DIAG_LVL_INVALID

未初始化。

enumerator DCGM_DIAG_LVL_SHORT

对系统运行非常基础的健康检查

enumerator DCGM_DIAG_LVL_MED

运行中等时长的诊断 (几分钟)

enumerator DCGM_DIAG_LVL_LONG

运行扩展诊断 (几分钟)

enumerator DCGM_DIAG_LVL_XLONG

运行非常扩展的诊断 (多分钟)

enum dcgmPerGpuTestIndices_enum

每个 GPU 测试的诊断 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。

enumerator DCGM_MEMORY_INDEX

内存测试索引。

enumerator DCGM_DIAGNOSTIC_INDEX

诊断测试索引。

enumerator DCGM_PCI_INDEX

PCIe 测试索引。

enumerator DCGM_SM_STRESS_INDEX

SM 压力测试索引。

enumerator DCGM_TARGETED_STRESS_INDEX

目标压力测试索引。

enumerator DCGM_TARGETED_POWER_INDEX

目标功耗测试索引。

enumerator DCGM_MEMORY_BANDWIDTH_INDEX

内存带宽测试索引。

enumerator DCGM_MEMTEST_INDEX

Memtest 测试索引。

enumerator DCGM_PULSE_TEST_INDEX

脉冲测试索引。

enumerator DCGM_EUD_TEST_INDEX

EUD 测试索引。

enumerator DCGM_NVBANDWIDTH_INDEX

NVBandwidth 索引。

enumerator DCGM_UNUSED2_TEST_INDEX
enumerator DCGM_UNUSED3_TEST_INDEX
enumerator DCGM_UNUSED4_TEST_INDEX
enumerator DCGM_UNUSED5_TEST_INDEX
enumerator DCGM_SOFTWARE_INDEX

软件测试索引。

enumerator DCGM_CONTEXT_CREATE_INDEX

上下文创建测试索引。

enumerator DCGM_UNKNOWN_INDEX

未知测试。

enum dcgmSoftwareTest_enum

enumerator DCGM_SWTEST_DENYLIST

测试驱动程序是否在拒绝列表中 (例如 nouveau)

enumerator DCGM_SWTEST_NVML_LIBRARY

测试 NVML 库是否存在 (及其版本)

enumerator DCGM_SWTEST_CUDA_MAIN_LIBRARY

测试 CUDA 库是否存在 (及其版本)

enumerator DCGM_SWTEST_CUDA_RUNTIME_LIBRARY

测试 CUDA RT 库是否存在 (及其版本)

enumerator DCGM_SWTEST_PERMISSIONS

测试字符设备权限

enumerator DCGM_SWTEST_PERSISTENCE_MODE

测试是否启用持久模式

enumerator DCGM_SWTEST_ENVIRONMENT

测试可能减慢测试速度的 CUDA 环境变量

enumerator DCGM_SWTEST_PAGE_RETIREMENT

测试是否有挂起的帧缓冲区页面退休

enumerator DCGM_SWTEST_GRAPHICS_PROCESSES

测试是否有图形进程正在运行

enumerator DCGM_SWTEST_INFOROM

测试 inforom 是否损坏

enumerator DCGM_SWTEST_FABRIC_MANAGER

测试 Fabric Manager 是否正在运行

enum dcgmGpuLevel_enum

表示系统中两个 GPU 之间级别关系的级别。枚举值之间留有间隔,以便将来扩展关系。

这些与 nvml.h 中的定义匹配

enumerator DCGM_TOPOLOGY_UNINITIALIZED
enumerator DCGM_TOPOLOGY_BOARD

多 GPU 板

enumerator DCGM_TOPOLOGY_SINGLE

所有只需要遍历单个 PCIe 交换机的设备

enumerator DCGM_TOPOLOGY_MULTIPLE

所有不需要遍历主机桥的设备

enumerator DCGM_TOPOLOGY_HOSTBRIDGE

所有连接到同一主机桥的设备

enumerator DCGM_TOPOLOGY_CPU

所有连接到同一 CPU 但可能连接到多个主机桥的设备

enumerator DCGM_TOPOLOGY_SYSTEM

系统中的所有设备

enumerator DCGM_TOPOLOGY_NVLINK1

通过单个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK2

通过两个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK3

通过三个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK4

通过四个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK5

通过五个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK6

通过六个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK7

通过七个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK8

通过八个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK9

通过九个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK10

通过十个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK11

通过十一个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK12

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK13

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK14

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK15

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK16

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK17

通过十二个 NVLINK 链路连接的 GPU。

enumerator DCGM_TOPOLOGY_NVLINK18

通过十二个 NVLINK 链路连接的 GPU。

enum dcgmGpuNVLinkErrorType_enum

标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。

发生 NVLink 链路恢复错误。

发生 NVLink 链路致命错误。

enum dcgmNvLinkLinkState_enum

NvLink 链路状态。

enumerator DcgmNvLinkLinkStateNotSupported

此 GPU 不支持 NvLink (GPU 的默认值)

enumerator DcgmNvLinkLinkStateDisabled

此链路支持 NvLink,但此链路已禁用 (NvSwitch 的默认值)

enumerator DcgmNvLinkLinkStateDown

此 NvLink 链路已断开 (非活动状态)

enumerator DcgmNvLinkLinkStateUp

此 NvLink 链路已连接 (活动状态)

enum dcgmModuleId_t

模块 ID。

enumerator DcgmModuleIdCore

核心 DCGM - 始终加载。

enumerator DcgmModuleIdNvSwitch

NvSwitch 模块。

enumerator DcgmModuleIdVGPU

VGPU 模块。

enumerator DcgmModuleIdIntrospect

内省模块。

enumerator DcgmModuleIdHealth

健康模块。

enumerator DcgmModuleIdPolicy

策略模块。

enumerator DcgmModuleIdConfig

配置模块。

enumerator DcgmModuleIdDiag

GPU 诊断模块。

enumerator DcgmModuleIdProfiling

性能分析模块。

enumerator DcgmModuleIdSysmon

系统监控模块。

enumerator DcgmModuleIdCount

始终是最后一个。比上面的最大值大 1。

enum dcgmModuleStatus_t

模块状态。

模块是延迟加载的,因此在被使用之前,它们将处于 DcgmModuleStatusNotLoaded 状态。一旦模块被使用,它们将移动到另一种状态。

enumerator DcgmModuleStatusNotLoaded

模块尚未加载。

enumerator DcgmModuleStatusDenylisted

模块在拒绝列表中;无法加载。

enumerator DcgmModuleStatusFailed

加载模块失败。

enumerator DcgmModuleStatusLoaded

模块已加载。

enumerator DcgmModuleStatusUnloaded

模块已卸载,发生在关闭期间。

enumerator DcgmModuleStatusPaused

模块已暂停。这是一个临时状态,一旦模块恢复,将移动到 DcgmModuleStatusLoaded 状态。此状态意味着模块已加载。

enum dcgmFabricManagerStatus_t

enumerator DcgmFMStatusNotSupported

此 GPU 不支持 Fabric Manager。

enumerator DcgmFMStatusNotStarted

Fabric Manager 尚未在此 GPU 上启动。

enumerator DcgmFMStatusInProgress

Fabric Manager 仍在启动中。

enumerator DcgmFMStatusSuccess

Fabric Manager 已成功启动。

enumerator DcgmFMStatusFailure

Fabric Manager 完成了启动,但失败了。

enumerator DcgmFMStatusUnrecognized

NVML 为 Fabric Manager 返回了一个无法识别的状态。

enumerator DcgmFMStatusNvmlTooOld

当查询 Fabric Manager 状态时,NVML 返回了 NVML_ERROR_FUNCTION_NOT_FOUND。

enumerator DcgmFMStatusCount

有效状态的计数,始终比最后一个状态多 1。

#include <dcgm_structs.h>

表示链接对象。

类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一; gpuId 或 switchID 是关联的 gpu 或交换机; index 是链接索引,从 0 开始,TX(偶数)在 RX(奇数)之前。

Public Members

实体组

链路索引:Tx 在 Rx 之前

物理 GPU ID

物理交换机 ID

分解的链路标识符 GPU/SW:[GPU|SW]:索引

原始链路 ID

struct dcgmConnectV2Params_v1
#include <dcgm_structs.h>

dcgmConnect_v2 (v1) 的连接选项

注意:此版本已弃用。请使用 dcgmConnectV2Params_v2

Public Members

unsigned int version

版本号。使用 dcgmConnectV2Params_version

unsigned int persistAfterDisconnect

是否在连接终止后,持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由连接创建的所有字段监视都会被删除。1 = 不清除此连接后的数据。0 = 清除此连接后的数据

struct dcgmConnectV2Params_v2
#include <dcgm_structs.h>

dcgmConnect_v2 (v2) 的连接选项

Public Members

unsigned int version

版本号。使用 dcgmConnectV2Params_version

unsigned int persistAfterDisconnect

是否在连接终止后,持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由连接创建的所有字段监视都会被删除。1 = 不清除此连接后的数据。0 = 清除此连接后的数据

unsigned int timeoutMs

当尝试连接到指定的主机引擎时,我们应该等待多长时间(以毫秒为单位)才放弃

unsigned int addressIsUnixSocket

传入的地址是 Unix 套接字文件名 (1) 还是 TCP/IP 地址 (0)

struct dcgmHostengineHealth_v1
#include <dcgm_structs.h>

dcgmHostengineHealth_v1 的类型定义。

Public Members

unsigned int version

此请求的版本。

unsigned int overallHealth

0 表示健康,或使用代码表示错误

struct dcgmGroupEntityPair_t
#include <dcgm_structs.h>

表示 entityGroupId + entityId 对,以唯一标识实体组中给定的 entityId。

在 DCGM 1.5.0 中添加

Public Members

dcgm_field_entity_group_t entityGroupId

实体所属的实体组 ID。

dcgm_field_eid_t entityId

实体的实体 ID。

struct dcgmGroupInfo_v2
#include <dcgm_structs.h>

用于存储 DCGM 组信息的结构。

在 DCGM 1.5.0 中添加

Public Members

unsigned int version

版本号(使用 dcgmGroupInfo_version2)

unsigned int count

在 *entityList* 中返回的 entityId 计数

char groupName[256]

组名。

dcgmGroupEntityPair_t entityList[64]

此组中实体的列表。

struct dcgmGroupInfo_v3
#include <dcgm_structs.h>

用于存储 DCGM 组信息的结构。

在 DCGM 1.5.0 中添加

Public Members

unsigned int version

版本号(使用 dcgmGroupInfo_version3)

unsigned int count

在 *entityList* 中返回的 entityId 计数

char groupName[256]

组名。

dcgmGroupEntityPair_t entityList[1024]

此组中实体的列表。

struct dcgmMigHierarchyInfo_t
#include <dcgm_structs.h>

表示一对实体配对,以唯一标识实体及其在层次结构中的位置。

Public Members

dcgmGroupEntityPair_t entity

相关实体的实体 ID 和类型。

dcgmGroupEntityPair_t parent

相关实体的父实体的实体 ID 和类型。

dcgmMigProfile_t sliceProfile

实体 MIG 配置文件标识符。

struct dcgmMigEntityInfo_t
#include <dcgm_structs.h>

提供有关 MIG 实体位置的附加信息。

Public Members

char gpuUuid[128]

GPU UUID

unsigned int nvmlGpuIndex

来自 NVML 的 GPU 索引

unsigned int nvmlInstanceId

GPU 内的 GPU 实例索引。0 到 N。GPU 实体为 -1

unsigned int nvmlComputeInstanceId

GPU 实例内的 GPU 计算实例索引。0 到 N。GPU 实例和 GPU 实体为 -1

unsigned int nvmlMigProfileId

GPU 或计算实例的唯一配置文件 ID。GPU 实体为 -1

See also

nvmlComputeInstanceProfileInfo_st

See also

nvmlGpuInstanceProfileInfo_st

unsigned int nvmlProfileSlices

MIG 配置文件中的切片数

struct dcgmMigHierarchyInfo_v2
struct dcgmMigHierarchy_v2
struct dcgmCpuHierarchyOwnedCores_v1
struct dcgmCpuHierarchy_v1
#include <dcgm_structs.h>

CPU 及其核心的层次结构。

struct dcgmCpuHierarchyCpu_v1
struct dcgmCpuHierarchy_v2
struct dcgmCpuHierarchyCpu_v2
struct dcgmFieldGroupInfo_v1
#include <dcgm_structs.h>

用于表示字段组信息的结构。

Public Members

unsigned int version

版本号 (dcgmFieldGroupInfo_version)

unsigned int numFieldIds

fieldIds[] 中有效条目的数量。

dcgmFieldGrp_t fieldGroupId

此字段组的 ID。

char fieldGroupName[256]

字段组名称。

unsigned short fieldIds[128]

属于此组的字段 ID。

struct dcgmAllFieldGroup_v1

Public Members

unsigned int version

版本号 (dcgmAllFieldGroupInfo_version)

unsigned int numFieldGroups

fieldGroups[] 中已填充条目的数量。

dcgmFieldGroupInfo_t fieldGroups[64]

有关每个字段组的信息。

struct dcgmErrorInfo_t
#include <dcgm_structs.h>

用于表示错误属性的结构。

Public Members

unsigned int gpuId

表示 GPU ID。

short fieldId

DCGM_FI_? 之一。

int status

DCGM_ST_? 之一。

struct dcgmClockSet_v1
#include <dcgm_structs.h>

表示设备的内存、SM 和视频时钟的集合。

这可以是当前值,也可以是基于上下文的目标值

Public Members

int version

版本号 (dcgmClockSet_version)

unsigned int memClock

内存时钟(内存时钟值或 DCGM_INT32_BLANK,用于忽略/使用与 smClk 兼容的值)

unsigned int smClock

SM 时钟(SM 时钟值或 DCGM_INT32_BLANK,用于忽略/使用与 memClk 兼容的值)

struct dcgmDeviceSupportedClockSets_v1
#include <dcgm_structs.h>

表示设备支持的时钟集列表。

Public Members

unsigned int version

版本号 (dcgmDeviceSupportedClockSets_version)

unsigned int count

支持的时钟数。

dcgmClockSet_t clockSet[256]

设备的有效时钟集。最多填充 count 个条目。

struct dcgmDevicePidAccountingStats_v1
#include <dcgm_structs.h>

表示一个进程的核算数据。

Public Members

unsigned int version

版本号。应与 dcgmDevicePidAccountingStats_version 匹配。

unsigned int pid

此统计信息所属的进程的进程 ID。

unsigned int gpuUtilization

进程生命周期内,在一个或多个内核在 GPU 上执行期间所占时间的百分比。

如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED

unsigned int memoryUtilization

进程生命周期内,全局(设备)内存被读取或写入期间所占时间的百分比。

如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED

unsigned long long maxMemoryUsage

进程已分配的最大总内存(以字节为单位)。

如果不支持,则设置为 DCGM_INT64_NOT_SUPPORTED

unsigned long long startTimestamp

以微秒为单位的 CPU 时间戳,表示进程的开始时间。

unsigned long long activeTimeUsec

计算上下文处于活动状态的时间量(以微秒为单位)。

请注意,这并不意味着上下文正在被使用。endTimestamp 可以计算为 startTimestamp + activeTime

struct dcgmDeviceThermals_v1
#include <dcgm_structs.h>

表示热信息。

Public Members

unsigned int version

版本号。

unsigned int slowdownTemp

降速温度。

unsigned int shutdownTemp

关机温度。

struct dcgmDevicePowerLimits_v1
#include <dcgm_structs.h>

表示各种功耗限制。

Public Members

unsigned int version

版本号。

unsigned int curPowerLimit

与此设备关联的功耗管理限制(单位:W)

unsigned int defaultPowerLimit

设备启动时生效的功耗管理限制(单位:W)

unsigned int enforcedPowerLimit

驱动程序在考虑所有限制器后强制执行的有效功耗限制(单位:W)

unsigned int minPowerLimit

最小功耗管理限制(单位:W)

unsigned int maxPowerLimit

最大功耗管理限制(单位:W)

struct dcgmDeviceIdentifiers_v1
#include <dcgm_structs.h>

表示设备标识符。

Public Members

unsigned int version

版本号 (dcgmDeviceIdentifiers_version)

char brandName[256]

品牌名称。

char deviceName[256]

设备名称。

char pciBusId[256]

PCI 总线 ID。

char serial[256]

设备的序列号。

char uuid[256]

设备的 UUID。

char vbios[256]

VBIOS 版本。

char inforomImageVersion[256]

Inforom 镜像版本。

unsigned int pciDeviceId

组合的 16 位设备 ID 和 16 位供应商 ID。

unsigned int pciSubSystemId

32 位子系统设备 ID。

char driverVersion[256]

驱动程序版本。

unsigned int virtualizationMode

虚拟化模式。

struct dcgmDeviceMemoryUsage_v1
#include <dcgm_structs.h>

表示设备内存和使用情况。

Public Members

unsigned int version

版本号 (dcgmDeviceMemoryUsage_version)

unsigned int bar1Total

BAR1 总大小(以兆字节为单位)。

unsigned int fbTotal

帧缓冲区总内存(以兆字节为单位)。

unsigned int fbUsed

已用帧缓冲区内存(以兆字节为单位)。

unsigned int fbFree

可用帧缓冲区内存(以兆字节为单位)。

struct dcgmDeviceVgpuUtilInfo_v1
#include <dcgm_structs.h>

表示设备上运行的 vGPU 的利用率值。

Public Members

unsigned int version

版本号 (dcgmDeviceVgpuUtilInfo_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int smUtil

vGPU 的 GPU 利用率。

unsigned int memUtil

vGPU 的内存利用率。

unsigned int encUtil

vGPU 的编码器利用率。

unsigned int decUtil

vGPU 的解码器利用率。

struct dcgmDeviceEncStats_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例的当前编码器统计信息。

Public Members

unsigned int version

版本号 (dcgmDeviceEncStats_version)

unsigned int sessionCount

活动编码器会话计数。

unsigned int averageFps

所有活动会话的尾随平均 FPS。

unsigned int averageLatency

编码延迟(以毫秒为单位)。

struct dcgmDeviceFbcStats_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例的当前帧缓冲区捕获会话统计信息。

Public Members

unsigned int version

版本号 (dcgmDeviceFbcStats_version)

unsigned int sessionCount

活动 FBC 会话计数。

unsigned int averageFps

每秒捕获的新帧的移动平均值。

unsigned int averageLatency

新帧捕获延迟的移动平均值(以微秒为单位)。

struct dcgmDeviceFbcSessionInfo_v1
#include <dcgm_structs.h>

表示有关给定设备/vGPU 实例上活动 FBC 会话的信息。

Public Members

unsigned int version

版本号 (dcgmDeviceFbcSessionInfo_version)

unsigned int sessionId

唯一会话 ID。

unsigned int pid

所有者进程 ID。

unsigned int vgpuId

vGPU 实例 ID(仅在 vGPU 主机上有效,否则为零)

unsigned int displayOrdinal

显示标识符。

dcgmFBCSessionType_t sessionType

帧缓冲区捕获会话的类型。

unsigned int sessionFlags

会话标志。

unsigned int hMaxResolution

捕获会话支持的最大水平分辨率。

unsigned int vMaxResolution

捕获会话支持的最大垂直分辨率。

unsigned int hResolution

调用者在捕获调用中请求的水平分辨率。

unsigned int vResolution

调用者在捕获调用中请求的垂直分辨率。

unsigned int averageFps

每秒捕获的新帧的移动平均值。

unsigned int averageLatency

新帧捕获延迟的移动平均值(以微秒为单位)。

struct dcgmDeviceFbcSessions_v1
#include <dcgm_structs.h>

表示给定设备/vGPU 实例上的所有活动 FBC 会话。

Public Members

unsigned int version

版本号 (dcgmDeviceFbcSessions_version)

unsigned int sessionCount

活动 FBC 会话计数。

dcgmDeviceFbcSessionInfo_t sessionInfo[256]

有关活动 FBC 会话的信息。

struct dcgmDeviceVgpuEncSessions_v1
#include <dcgm_structs.h>

表示有关给定 vGPU 实例上活动编码器会话的信息。

Public Members

unsigned int version

版本号 (dcgmDeviceVgpuEncSessions_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int sessionId

唯一会话 ID。

unsigned int pid

进程 ID。

dcgmEncoderType_t codecType

视频编码器类型。

unsigned int hResolution

当前编码水平分辨率。

unsigned int vResolution

当前编码垂直分辨率。

unsigned int averageFps

移动平均编码帧率 (每秒帧数)。

unsigned int averageLatency

移动平均编码延迟 (毫秒)。

struct dcgmDeviceVgpuProcessUtilInfo_v1
#include <dcgm_structs.h>

表示使用该设备的 vGPU VM 中运行的进程的利用率值。

Public Members

unsigned int version

版本号 (dcgmDeviceVgpuProcessUtilInfo_version)

unsigned int vgpuId

vGPU 实例 ID

unsigned int vgpuProcessSamplesCount

vGPU VM 中运行的进程计数,这些进程的利用率在本周期中报告。

unsigned int pid

vGPU VM 中运行的进程的进程 ID。

char processName[64]

vGPU VM 中运行的进程的进程名称。

unsigned int smUtil

vGPU VM 中运行的进程的 GPU 利用率。

unsigned int memUtil

vGPU VM 中运行的进程的内存利用率。

unsigned int encUtil

vGPU VM 中运行的进程的编码器利用率。

unsigned int decUtil

vGPU VM 中运行的进程的解码器利用率。

struct dcgmDeviceVgpuTypeInfo_v1
#include <dcgm_structs.h>

表示设备上支持的 vGPU 的静态信息。

Public Members

unsigned int version

版本号 (dcgmDeviceVgpuTypeInfo_version)

union dcgmDeviceVgpuTypeInfo_v1::[anonymous] vgpuTypeInfo

vGPU 类型 ID 和支持的 vGPU 类型计数

char vgpuTypeName[64]

vGPU 类型名称

char vgpuTypeClass[64]

vGPU 类型的类别。

char vgpuTypeLicense[128]

vGPU 类型的许可证

int deviceId

vGPU 类型的设备 ID

int subsystemId

vGPU 类型的子系统 ID。

int numDisplayHeads

vGPU 支持的显示头数量。

int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

int frameRateLimit

vGPU 类型的帧率限制值。

int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

int fbTotal

vGPU 总帧缓冲区大小 (MB)

struct dcgmDeviceVgpuTypeInfo_v2

Public Members

unsigned int version

版本号 (dcgmDeviceVgpuTypeInfo_version2)

union dcgmDeviceVgpuTypeInfo_v2::[anonymous] vgpuTypeInfo

vGPU 类型 ID 和支持的 vGPU 类型计数

char vgpuTypeName[64]

vGPU 类型名称

char vgpuTypeClass[64]

vGPU 类型的类别。

char vgpuTypeLicense[128]

vGPU 类型的许可证

int deviceId

vGPU 类型的设备 ID

int subsystemId

vGPU 类型的子系统 ID。

int numDisplayHeads

vGPU 支持的显示头数量。

int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

int frameRateLimit

vGPU 类型的帧率限制值。

int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

int fbTotal

vGPU 总帧缓冲区大小 (MB)

int gpuInstanceProfileId

给定 vGPU 类型的 GPU 实例配置文件 ID。

struct dcgmDeviceSupportedVgpuTypeInfo_v1
#include <dcgm_structs.h>

表示设备上支持的 vGPU 的相关信息。

Public Members

unsigned int version

版本号 (dcgmDeviceSupportedVgpuTypeInfo_version)

unsigned long long deviceId

vGPU 类型的设备 ID

unsigned long long subsystemId

vGPU 类型的子系统 ID。

unsigned int numDisplayHeads

vGPU 支持的显示头数量。

unsigned int maxInstances

给定 vGPU 类型在设备上可创建的最大 vGPU 实例数

unsigned int frameRateLimit

vGPU 类型的帧率限制值。

unsigned int maxResolutionX

vGPU 显示头的 X 维度最大支持分辨率

unsigned int maxResolutionY

vGPU 显示头的 Y 维度最大支持分辨率

unsigned long long fbTotal

vGPU 总帧缓冲区大小 (MB)

unsigned int gpuInstanceProfileId

给定 vGPU 类型的 GPU 实例配置文件 ID。

struct dcgmDeviceSettings_v2
struct dcgmDeviceAttributes_v3

Public Members

unsigned int version

版本号 (dcgmDeviceAttributes_version)

dcgmDeviceSupportedClockSets_t clockSets

设备支持的时钟频率。

dcgmDeviceThermals_t thermalSettings

设备的热设置。

dcgmDevicePowerLimits_t powerLimits

设备的各种功率限制。

dcgmDeviceIdentifiers_t identifiers

设备的标识符。

dcgmDeviceMemoryUsage_t memoryUsage

设备的内存使用信息。

dcgmDeviceSettings_v2 settings

基本设备设置。

struct dcgmDeviceMigAttributesInfo_v1
#include <dcgm_structs.h>

表示 MIG 设备的属性信息的结构体。

Public Members

unsigned int version

版本号 (dcgmDeviceMigAttributesInfo_version)

unsigned int gpuInstanceId

GPU 实例 ID。

unsigned int computeInstanceId

计算实例 ID。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int sharedCopyEngineCount

共享复制引擎计数。

unsigned int sharedDecoderCount

共享解码器引擎计数。

unsigned int sharedEncoderCount

共享编码器引擎计数。

unsigned int sharedJpegCount

共享 JPEG 引擎计数。

unsigned int sharedOfaCount

共享 OFA 引擎计数。

unsigned int gpuInstanceSliceCount

GPU 实例切片计数。

unsigned int computeInstanceSliceCount

计算实例切片计数。

unsigned long long memorySizeMB

设备内存大小 (MiB)

struct dcgmDeviceMigAttributes_v1
#include <dcgm_structs.h>

表示 MIG 设备的属性的结构体。

Public Members

unsigned int version

版本号 (dcgmDeviceMigAttributes_version)

unsigned int migDevicesCount

MIG 设备计数。

dcgmDeviceMigAttributesInfo_v1 migAttributesInfo

MIG 属性信息。

struct dcgmGpuInstanceProfileInfo_v1
#include <dcgm_structs.h>

表示 GPU 实例配置文件信息的结构体。

Public Members

unsigned int version

版本号 (dcgmGpuInstanceProfileInfo_version)

unsigned int id

设备内唯一的配置文件 ID。

unsigned int isP2pSupported

对等互连支持。

unsigned int sliceCount

GPU Slice 计数。

unsigned int instanceCount

GPU 实例计数。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int copyEngineCount

复制引擎计数。

unsigned int decoderCount

解码器引擎计数。

unsigned int encoderCount

编码器引擎计数。

unsigned int jpegCount

JPEG 引擎计数。

unsigned int ofaCount

OFA 引擎计数。

unsigned long long memorySizeMB

内存大小,单位为 MB。

struct dcgmGpuInstanceProfiles_v1
#include <dcgm_structs.h>

用于表示 GPU 实例配置文件的结构体。

Public Members

unsigned int version

版本号 (dcgmGpuInstanceProfiles_version)

unsigned int profileCount

配置文件计数。

dcgmGpuInstanceProfileInfo_v1 profileInfo

GPU 实例配置文件信息。

struct dcgmComputeInstanceProfileInfo_v1
#include <dcgm_structs.h>

用于表示计算实例配置文件信息的结构体。

Public Members

unsigned int version

版本号 (dcgmComputeInstanceProfileInfo_version)

unsigned int gpuInstanceId

GPU 实例 ID。

unsigned int id

GPU 实例内的唯一配置文件 ID。

unsigned int sliceCount

GPU Slice 计数。

unsigned int instanceCount

计算实例计数。

unsigned int multiprocessorCount

流式多处理器计数。

unsigned int sharedCopyEngineCount

共享复制引擎计数。

unsigned int sharedDecoderCount

共享解码器引擎计数。

unsigned int sharedEncoderCount

共享编码器引擎计数。

unsigned int sharedJpegCount

共享 JPEG 引擎计数。

unsigned int sharedOfaCount

共享 OFA 引擎计数。

struct dcgmComputeInstanceProfiles_v1
#include <dcgm_structs.h>

用于表示计算实例配置文件的结构体。

Public Members

unsigned int version

版本号 (dcgmComputeInstanceProfiles_version)

unsigned int profileCount

配置文件计数。

dcgmComputeInstanceProfileInfo_v1 profileInfo

计算实例配置文件信息。

struct dcgmWorkloadPowerProfileInfo_v1

Public Members

unsigned int version

API 版本号

struct dcgmWorkloadPowerProfileProfilesInfo_v1

Public Members

unsigned int version

API 版本号

dcgmWorkloadPowerProfileInfo_v1 workloadPowerProfile[(255)]

工作负载功耗配置文件信息参数数组。

struct dcgmDeviceWorkloadPowerProfilesStatus_v1
#include <dcgm_structs.h>

设备工作负载配置文件信息。

Public Members

unsigned int version

API 版本号

unsigned int profileMask[8]

有效工作负载功耗配置文件的位掩码。

struct dcgmConfigPerfStateSettings_t
#include <dcgm_structs.h>

用于表示性能状态设置。

Public Members

unsigned int syncBoost

同步加速模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)。

请注意,使用此设置可能会导致时钟频率低于 targetClocks

dcgmClockSet_t targetClocks

目标时钟频率。

将 smClock 和 memClock 设置为 DCGM_INT32_BLANK 以忽略/使用兼容值。对于 Maxwell 及更高版本的 GPU,设置此项意味着 autoBoost=0

struct dcgmConfigPowerLimit_t
#include <dcgm_structs.h>

用于表示组中每个 GPU 的功率上限或表示整个组的功率预算。

Public Members

dcgmConfigPowerLimitType_t type

标志,用于表示每个 GPU 的功率上限或 GPU 组的功率预算。

unsigned int val

功率限制,单位为瓦特(设置值或 DCGM_INT32_BLANK 以忽略)

struct dcgmConfig_v1
#include <dcgm_structs.h>

用于表示设备的默认配置和目标配置的结构体。

Public Members

unsigned int version

版本号 (dcgmConfig_version)

unsigned int gpuId

GPU ID。

unsigned int eccMode

ECC 模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)

unsigned int computeMode

计算模式(DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)

dcgmConfigPerfStateSettings_t perfState

性能状态设置(时钟频率/加速模式)

dcgmConfigPowerLimit_t powerLimit

功率限制。

struct dcgmConfig_v2

Public Members

unsigned int version

版本号 (dcgmConfig_version)

unsigned int gpuId

GPU ID。

unsigned int eccMode

ECC 模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)

unsigned int computeMode

计算模式(DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)

dcgmConfigPerfStateSettings_t perfState

性能状态设置(时钟频率/加速模式)

dcgmConfigPowerLimit_t powerLimit

功率限制。

struct dcgmPolicyViolation_v1

Public Members

unsigned int version

版本号 (dcgmPolicyViolation_version)

unsigned int notifyOnEccDbe

关于 ECC 双位错误的 true/false 通知

unsigned int notifyOnPciEvent

关于 PCI 事件的 true/false 通知

unsigned int notifyOnMaxRetiredPages

发生多少个已停用页面后进行通知

struct dcgmPolicyConditionParams_st
#include <dcgm_structs.h>

策略条件参数的结构体。

此结构体包含一个标签,表示作为参数传递的值的类型,以及一个 “val”,它是可能的值类型的联合。例如,要传递一个 true 布尔值:tag = BOOL,val.boolean = 1。

struct dcgmPolicyViolationNotify_t
#include <dcgm_structs.h>

当用户查询策略违规时填充的结构体。

Public Members

unsigned int gpuId

GPU ID

unsigned int violationOccurred

基于 dcgmPolicyCondition_t 中的位值的违规

struct dcgmPolicy_v1
#include <dcgm_structs.h>

定义指定要为 GPU 强制执行的策略的结构体。

Public Members

unsigned int version

版本号 (dcgmPolicy_version)

dcgmPolicyCondition_t condition

要访问 dcgmPolicyCondition_t 的条件。

dcgmPolicyMode_t mode

操作模式 dcgmPolicyMode_t

dcgmPolicyIsolation_t isolation

策略违规后的隔离级别 dcgmPolicyIsolation_t

dcgmPolicyAction_t action

策略违规后要执行的操作 dcgmPolicyAction_t action。

dcgmPolicyValidation_t validation

采取操作后要执行的验证 dcgmPolicyValidation_t

dcgmPolicyFailureResp_t response

验证失败响应 dcgmPolicyFailureResp_t

dcgmPolicyConditionParams_t parms[7]

condition 字段的参数。

struct dcgmPolicyConditionDbe_t
#include <dcgm_structs.h>

定义 ECC DBE 返回结构体。

Public Members

long long timestamp

错误的 时间戳

enum dcgmPolicyConditionDbe_t::[anonymous] location

错误的位置

unsigned int numerrors

错误数量

struct dcgmPolicyConditionPci_t
#include <dcgm_structs.h>

定义 PCI 重放错误返回结构体。

Public Members

long long timestamp

错误的 时间戳

unsigned int counter

PCIe 重放计数器的值

struct dcgmPolicyConditionMpr_t
#include <dcgm_structs.h>

定义最大挂起的已停用页面限制返回结构。

Public Members

long long timestamp

错误的 时间戳

unsigned int sbepages

由于 SBE 导致的挂起页面数

unsigned int dbepages

由于 DBE 导致的挂起页面数

struct dcgmPolicyConditionThermal_t
#include <dcgm_structs.h>

定义热策略违规返回结构。

Public Members

long long timestamp

错误的 时间戳

unsigned int thermalViolation

达到的温度违反了策略。

struct dcgmPolicyConditionPower_t
#include <dcgm_structs.h>

定义电源策略违规返回结构。

Public Members

long long timestamp

错误的 时间戳

unsigned int powerViolation

达到的电源值违反了策略。

#include <dcgm_structs.h>

定义 nvlink 策略违规返回结构。

Public Members

错误的 时间戳

违反策略的 Nvlink 计数器字段 ID。

违反策略的 Nvlink 计数值。

struct dcgmPolicyConditionXID_t
#include <dcgm_structs.h>

定义 xid 策略违规返回结构。

Public Members

long long timestamp

错误的 时间戳。

unsigned int errnum

XID 错误号。

struct dcgmPolicyCallbackResponse_v2
#include <dcgm_structs.h>

定义传递给回调函数的结构。

Public Members

unsigned int version

版本号 (dcgmPolicyCallbackResponse_version)

dcgmPolicyCondition_t condition

违反的条件。

dcgmPolicyConditionDbe_t dbe

ECC DBE 返回结构。

dcgmPolicyConditionPci_t pci

PCI 重放错误返回结构。

dcgmPolicyConditionMpr_t mpr

最大停用页面限制返回结构。

dcgmPolicyConditionThermal_t thermal

热策略违规返回结构。

dcgmPolicyConditionPower_t power

电源策略违规返回结构。

dcgmPolicyConditionNvlink_t nvlink

Nvlink 策略违规返回结构。

dcgmPolicyConditionXID_t xid

XID 策略违规返回结构。

unsigned int gpuId

违反策略的 GPU 的 GPU ID。

struct dcgmFieldValue_v1
#include <dcgm_structs.h>

此结构用于表示要查询的字段的值。

Public Members

unsigned int version

版本号 (dcgmFieldValue_version1)

unsigned short fieldId

DCGM_FI_? 之一。

unsigned short fieldType

DCGM_FT_? 之一

int status

查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一

int64_t ts

自 1970 年以来的时间戳,单位为微秒。

int64_t i64

Int64 值。

double dbl

Double 值。

char str[256]

NULL 结尾的字符串。

char blob[4096]

二进制 blob。

union dcgmFieldValue_v1::[anonymous] value

值。

struct dcgmFieldValue_v2
#include <dcgm_structs.h>

此结构用于表示要查询的字段的值。

Public Members

unsigned int version

版本号 (dcgmFieldValue_version2)

dcgm_field_entity_group_t entityGroupId

此字段值的实体所属的实体组。

dcgm_field_eid_t entityId

此字段值所属的实体。

unsigned short fieldId

DCGM_FI_? 之一。

unsigned short fieldType

DCGM_FT_? 之一

int status

查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一

unsigned int unused

目前未使用,用于将 ts 对齐到 8 字节边界。

int64_t ts

自 1970 年以来的时间戳,单位为微秒。

int64_t i64

Int64 值。

double dbl

Double 值。

char str[256]

NULL 结尾的字符串。

char blob[4096]

二进制 blob。

union dcgmFieldValue_v2::[anonymous] value

值。

struct dcgmStatSummaryInt64_t
#include <dcgm_structs.h>

int64 格式的时间序列数据摘要。

每个值将被设置或为空白值。使用 DCGM_INT64_IS_BLANK() 宏检查空白。

See also

有关空白值的实际值,请参见 dcgmvalue.h

Public Members

long long minValue

所查看样本的最小值。

long long maxValue

所查看样本的最大值。

long long average

所查看样本的简单平均值。此计算将忽略空白值。

struct dcgmStatSummaryInt32_t
#include <dcgm_structs.h>

dcgmStatSummaryInt64_t 相同,但使用 32 位整数值。

Public Members

int minValue

所查看样本的最小值。

int maxValue

所查看样本的最大值。

int average

所查看样本的简单平均值。此计算将忽略空白值。

struct dcgmStatSummaryFp64_t
#include <dcgm_structs.h>

双精度格式的时间序列数据摘要。

每个值将被设置或为空白值。使用 DCGM_FP64_IS_BLANK() 宏检查空白。

See also

有关空白值的实际值,请参见 dcgmvalue.h

Public Members

double minValue

所查看样本的最小值。

double maxValue

所查看样本的最大值。

double average

所查看样本的简单平均值。此计算将忽略空白值。

struct dcgmDiagErrorDetail_t
struct dcgmDiagErrorDetail_v2
#include <dcgm_structs.h>

错误详情。

自 DCGM 3.3 起

Public Members

unsigned int category

参见 dcgmErrorCategory_t。

unsigned int severity

参见 dcgmErrorSeverity_t。

struct dcgmDiagInfo_v1
#include <dcgm_structs.h>

诊断插件按实体的信息结果 v1。

自 DCGM 4.0 起

Public Members

dcgmGroupEntityPair_t entity

与信息关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。

char msg[512]

与插件报告的错误关联的任何消息。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagError_v1
#include <dcgm_structs.h>

诊断插件按实体的错误结果 v1。

自 DCGM 4.0 起

Public Members

dcgmGroupEntityPair_t entity

与错误关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。

unsigned int code

正在报告的错误代码。

unsigned int category

报告错误的类别。 请参阅 dcgm_errors.h 中的 dcgmErrorCategory_t。

unsigned int severity

报告错误的严重程度。 请参阅 dcgm_errors.h 中的 dcgmErrorSeverity_t。

char msg[512]

与插件报告的错误关联的任何消息。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagEntityResult_v1
#include <dcgm_structs.h>

诊断插件按实体的错误结果 v1。

自 DCGM 4.0 起。另请参阅 PluginInterface.h: dcgmDiagEntityResults_v1。

Public Members

dcgmGroupEntityPair_t entity

与结果关联的实体。 对于全局范围,请使用组 DCGM_FE_NONE。

dcgmDiagResult_t result

此实体的结果。

unsigned int testId

报告错误的测试的索引。

struct dcgmDiagTestAuxData_v1
#include <dcgm_structs.h>

每个测试辅助数据结构 v1。

自 DCGM 4.0 起

Public Members

unsigned int version

版本号 (dcgmDiagTestAuxData_version1)

struct dcgmDiagTestRun_v1
#include <dcgm_structs.h>

有关每次测试运行的信息。

自 DCGM 4.0 起

Public Members

char name[32]

测试的名称。

char pluginName[32]

此测试所属的插件名称。

dcgmDiagResult_t result

插件的总体结果(PASS、FAIL、SKIP、WARN、NOT_RUN)。

unsigned char numErrors

错误数,在 PASS 时始终为 0。

unsigned char numInfo

信息消息的数量。

unsigned char categoryIndex

DiagResponse.categories 的索引。

unsigned char _unused

填充字节

unsigned short numResults

实体结果的数量。

unsigned char errorIndices[32]

此运行的每个实体错误索引。

unsigned char infoIndices[16]

此运行的每个实体信息索引。

unsigned short resultIndices[1024]

此运行的每个实体结果索引。

struct dcgmDiagEntity_v1
#include <dcgm_structs.h>

以实体为中心的诊断运行的附加实体详细信息。

自 DCGM 4.0 起。

Public Members

dcgmGroupEntityPair_t entity

实体组和实体 ID。

char serialNum[256]

序列号(字符串;仅限 GPU?)。

char skuDeviceId[5]

PCI 设备 ID(字符串;仅限 GPU?)。

struct dcgmIncidentInfo_t

Public Members

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此事件的健康状况诊断

dcgmDiagErrorDetail_t error

有关错误及其错误代码的信息。

dcgmGroupEntityPair_t entityInfo

标识哪个实体发生此错误

struct dcgmHealthResponse_v5
#include <dcgm_structs.h>

健康状况响应结构版本 4 - 仅列出事件,而不是按实体报告。

自 DCGM 2.0 起

Public Members

unsigned int version

此结构的版本号。

dcgmHealthWatchResults_t overallHealth

整个主机的总体健康状况。

unsigned int incidentCount

此结构中报告的健康事件数。

dcgmIncidentInfo_t incidents[1024]

检测到的错误报告。

struct dcgmHealthSetParams_v2
#include <dcgm_structs.h>

用于通过 dcgmHealthSet_v2 API 设置健康监视的结构。

Public Members

unsigned int version

此结构的版本。应为 dcgmHealthSet_version2

dcgmGpuGrp_t groupId

表示一个或多个实体集合的组 ID。 有关创建组的详细信息,请查看 dcgmGroupCreate。 或者,传入组 ID 作为 *DCGM_GROUP_ALL_GPUS* 以对所有 GPU 执行操作,或 *DCGM_GROUP_ALL_NVSWITCHES* 以对所有 NvSwitches 执行操作。

dcgmHealthSystems_t systems

一个枚举,表示应为健康检查启用的系统,这些系统在逻辑上是 OR 运算的结果。 有关详细信息,请参阅 dcgmHealthSystems_t

long long updateInterval

以微秒为单位,从 NVIDIA 驱动程序查询底层健康信息的频率。 这应与您调用 dcgmHealthCheck 的频率相同

double maxKeepAge

数据在此字段中缓存的最长时间(以秒为单位)。 这应至少是您调用 dcgmHealthCheck 之间的最大时间

struct dcgmProcessUtilInfo_t
#include <dcgm_structs.h>

每个进程的利用率

struct dcgmProcessUtilSample_t
#include <dcgm_structs.h>

用于获取 PID 和相应利用率的内部结构。

struct dcgmPidSingleInfo_t
#include <dcgm_structs.h>

与单个 PID 对应的信息。

Public Members

unsigned int gpuId

此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。

long long energyConsumed

GPU 消耗的能量,单位为毫瓦/秒。

dcgmStatSummaryInt64_t pcieRxBandwidth

从 GPU 读取的 PCI-E 字节数。

dcgmStatSummaryInt64_t pcieTxBandwidth

写入 GPU 的 PCI-E 字节数。

long long pcieReplays

发生的 PCI-E 重放计数。

long long startTime

自 1970 年以来的进程启动时间,以微秒为单位。

long long endTime

自 1970 年以来的进程结束时间,以微秒为单位;如果进程未完成,则报告为 0。

dcgmProcessUtilInfo_t processUtilization

进程 SM 和内存利用率(以百分比表示)

dcgmStatSummaryInt32_t smUtilization

GPU SM 利用率,以百分比表示。

dcgmStatSummaryInt32_t memoryUtilization

GPU 内存利用率,以百分比表示。

unsigned int eccSingleBit

已弃用 - 发生的 ECC 单比特错误计数。

unsigned int eccDoubleBit

发生的 ECC 双比特错误计数。

dcgmStatSummaryInt32_t memoryClock

内存时钟频率,单位为 MHz。

dcgmStatSummaryInt32_t smClock

SM 时钟频率,单位为 MHz。

int numXidCriticalErrors

xidCriticalErrorsTs 中的有效条目数。

long long xidCriticalErrorsTs[10]

发生的严重 XID 错误的时间戳。

int numOtherComputePids

otherComputePids 条目中有效的计数。

unsigned int otherComputePids[16]

运行的其他计算进程。 0=无进程。

int numOtherGraphicsPids

otherGraphicsPids 条目中有效的计数。

unsigned int otherGraphicsPids[16]

运行的其他图形进程。 0=无进程。

long long maxGpuMemoryUsed

使用的最大 GPU 内存量,以字节为单位。

long long powerViolationTime

由于电源违规而处于降频状态的微秒数。

long long thermalViolationTime

由于热违规而处于降频状态的微秒数。

long long reliabilityViolationTime

由于可靠性限制而处于降频状态的微秒数。

long long boardLimitViolationTime

由于达到板卡最大电压而处于降频状态的微秒数。

long long lowUtilizationTime

由于低利用率而处于降频状态的微秒数。

long long syncBoostTime

由于同步加速而处于降频状态的微秒数。

dcgmHealthWatchResults_t overallHealth

系统的总体健康状况。 dcgmHealthWatchResults_t

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此 GPU 上指定系统的健康状况

struct dcgmPidInfo_v2
#include <dcgm_structs.h>

用于存储进程统计信息。

Public Members

unsigned int version

此消息的版本 (dcgmPidInfo_version)

unsigned int pid

进程的 PID。

int numGpus

GPUs 中有效的 GPU 数量。

dcgmPidSingleInfo_t summary

gpus[] 中列出的所有 GPU 的摘要信息。

dcgmPidSingleInfo_t gpus[32]

此 PID 的每个 GPU 信息。

struct dcgmGpuUsageInfo_t
#include <dcgm_structs.h>

与 GPU 上的作业相对应的信息。

Public Members

unsigned int gpuId

此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。

long long energyConsumed

以毫瓦/秒为单位的能耗。

dcgmStatSummaryFp64_t powerUsage

以瓦特为单位的功耗最小值/最大值/平均值。

dcgmStatSummaryInt64_t pcieRxBandwidth

从 GPU 读取的 PCI-E 字节数。

dcgmStatSummaryInt64_t pcieTxBandwidth

写入 GPU 的 PCI-E 字节数。

long long pcieReplays

发生的 PCI-E 重放计数。

long long startTime

用户提供的作业开始时间,以 1970 年以来的微秒数表示。

long long endTime

用户提供的作业结束时间,以 1970 年以来的微秒数表示。

dcgmStatSummaryInt32_t smUtilization

GPU SM 利用率,以百分比表示。

dcgmStatSummaryInt32_t memoryUtilization

GPU 内存利用率,以百分比表示。

unsigned int eccSingleBit

已弃用 - 发生的 ECC 单比特错误计数。

unsigned int eccDoubleBit

发生的 ECC 双比特错误计数。

dcgmStatSummaryInt32_t memoryClock

内存时钟频率,单位为 MHz。

dcgmStatSummaryInt32_t smClock

SM 时钟频率,单位为 MHz。

int numXidCriticalErrors

xidCriticalErrorsTs 中的有效条目数。

long long xidCriticalErrorsTs[10]

发生的严重 XID 错误的时间戳。

int numComputePids

computePids 条目中有效的计数。

dcgmProcessUtilInfo_t computePidInfo[16]

作业期间运行的计算进程列表。

0=无进程

int numGraphicsPids

graphicsPids 条目中有效的计数。

dcgmProcessUtilInfo_t graphicsPidInfo[16]

作业期间运行的计算进程列表。

0=无进程

long long maxGpuMemoryUsed

使用的最大 GPU 内存量,以字节为单位。

long long powerViolationTime

由于电源违规而处于降频状态的微秒数。

long long thermalViolationTime

由于热违规而处于降频状态的微秒数。

long long reliabilityViolationTime

由于可靠性限制而处于降频状态的微秒数。

long long boardLimitViolationTime

由于达到板卡最大电压而处于降频状态的微秒数。

long long lowUtilizationTime

由于低利用率而处于降频状态的微秒数。

long long syncBoostTime

由于同步加速而处于降频状态的微秒数。

dcgmHealthWatchResults_t overallHealth

系统的总体健康状况。 dcgmHealthWatchResults_t

dcgmHealthSystems_t system

此信息所属的系统

dcgmHealthWatchResults_t health

此 GPU 上指定系统的健康状况

struct dcgmJobInfo_v3
#include <dcgm_structs.h>

用于存储作业统计信息。以下字段不适用于摘要信息

  • pcieRxBandwidth (最小值/最大值)

  • pcieTxBandwidth (最小值/最大值)

  • smUtilization (最小值/最大值)

  • memoryUtilization (最小值/最大值)

  • memoryClock (最小值/最大值)

  • smClock (最小值/最大值)

  • processSamples

上述字段的平均值(在摘要中)是来自所有 GPU 的相应字段的平均值的平均值

Public Members

unsigned int version

此消息的版本 (dcgmPidInfo_version)

int numGpus

GPUs 中有效的 GPU 数量。

dcgmGpuUsageInfo_t summary

gpus[] 中列出的所有 GPU 的摘要信息。

dcgmGpuUsageInfo_t gpus[32]

此 PID 的每个 GPU 信息。

struct dcgmRunningProcess_v1
#include <dcgm_structs.h>

计算或图形进程的正在运行的进程信息。

Public Members

unsigned int version

此消息的版本 (dcgmRunningProcess_version)

unsigned int pid

进程的 PID。

unsigned long long memoryUsed

此进程使用的 GPU 显存,以字节为单位。

struct dcgmDiagTestResult_v2

Public Members

dcgmDiagResult_t status

测试结果。

dcgmDiagErrorDetail_t error

错误消息和错误代码(如果有)。

char info[1024]

从测试返回的信息详情(如果有)。

struct dcgmDiagTestResult_v3

Public Members

dcgmDiagResult_t status

测试结果。

dcgmDiagErrorDetail_v2 error[5]

错误消息和错误代码(如果有)。

char info[512]

从测试返回的信息详情(如果有)。

struct dcgmDiagResponsePerGpu_v4
#include <dcgm_structs.h>

每个 GPU 的诊断结果结构。

Public Members

unsigned int gpuId

此信息所属的 GPU 的 ID。

unsigned int hwDiagnosticReturn

每个 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v2 results[13]

包含每个 GPU 测试结果的数组。

struct dcgmDiagResponsePerGpu_v5

Public Members

unsigned int gpuId

此信息所属的 GPU 的 ID。

unsigned int hwDiagnosticReturn

每个 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v3 results[13]

包含每个 GPU 测试结果的数组。

struct dcgmDiagResponsePerGpu_v3
#include <dcgm_structs.h>

每个 gpu 响应结构 v3。

自 DCGM 2.4 起

Public Members

unsigned int gpuId

此信息所属的 GPU 的 ID。

unsigned int hwDiagnosticReturn

每个 GPU 硬件诊断测试返回值。

dcgmDiagTestResult_v2 results[9]

包含每个 GPU 测试结果的数组。

struct dcgmDiagResponse_v11
#include <dcgm_structs.h>

全局诊断结果结构 v11。

自 DCGM 4.0 起

Public Members

unsigned int version

版本号 (dcgmDiagResponse_v11)

unsigned char numTests

此响应中包含的测试数量。

unsigned char numErrors

此响应中包含的错误数量。

unsigned char numInfo

此响应中包含的信息消息数量。

unsigned char numCategories

此响应中包含的类别数量。

unsigned short numEntities

此响应中包含的实体数量。

unsigned short numResults

此响应中包含的结果数量。

dcgmDiagTestRun_v1 tests[20]

每个相关测试的测试运行信息。

dcgmDiagEntity_v1 entities[1024]

每个实体的详细信息。

dcgmDiagError_v1 errors[32]

每个实体的错误。

dcgmDiagInfo_v1 info[16]

每个实体的信息消息。

dcgmDiagEntityResult_v1 results[(20 * 1024)]

每个实体的结果。

char categories[5][20]

插件类别列表。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[682880]

为了与 v10 及更早版本保持二进制兼容性而需要。

struct dcgmDiagResponse_v10
#include <dcgm_structs.h>

全局诊断结果结构 v10。

自 DCGM 3.3.7 起

Public Members

unsigned int version

版本号 (dcgmDiagResponse_v10)

unsigned int gpuCount

每个 GPU 有效结果的数量

unsigned int levelOneTestCount

levelOne 有效结果的数量

dcgmDiagTestResult_v3 levelOneResults[16]

基本、系统范围的测试结果。

dcgmDiagResponsePerGpu_v5 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_v2 systemError

NVVS 报告的系统范围错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char devSerials[32][256]

设备的序列号。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

dcgmDiagTestAuxData_v1 auxDataPerTest[13]

每个测试返回的辅助数据。

struct dcgmDiagResponse_v9
#include <dcgm_structs.h>

全局诊断结果结构 v9。

自 DCGM 3.3 起

Public Members

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

每个 GPU 有效结果的数量

unsigned int levelOneTestCount

levelOne 有效结果的数量

dcgmDiagTestResult_v3 levelOneResults[16]

基本、系统范围的测试结果。

dcgmDiagResponsePerGpu_v5 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_v2 systemError

NVVS 报告的系统范围错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char devSerials[32][256]

设备的序列号。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[596]

不再使用。

struct dcgmDiagResponse_v8
#include <dcgm_structs.h>

全局诊断结果结构 v8。

自 DCGM 3.0 起

Public Members

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

每个 GPU 有效结果的数量

unsigned int levelOneTestCount

levelOne 有效结果的数量

dcgmDiagTestResult_v2 levelOneResults[16]

基本、系统范围的测试结果。

dcgmDiagResponsePerGpu_v4 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_t systemError

NVVS 报告的系统范围错误。

char devIds[32][5]

每个 GPU 的 SKU 设备 ID。

char dcgmVersion[12]

表示 DCGM 版本的字符串。

char driverVersion[256]

表示驱动程序版本的字符串。

char _unused[596]

不再使用。

struct dcgmDiagResponse_v7
#include <dcgm_structs.h>

全局诊断结果结构 v7。

自 DCGM 2.4 起

Public Members

unsigned int version

版本号 (dcgmDiagResult_version)

unsigned int gpuCount

每个 GPU 有效结果的数量

unsigned int levelOneTestCount

levelOne 有效结果的数量

dcgmDiagTestResult_v2 levelOneResults[16]

基本、系统范围的测试结果。

dcgmDiagResponsePerGpu_v3 perGpuResponses[32]

每个 GPU 的测试结果

dcgmDiagErrorDetail_t systemError

NVVS 报告的系统范围错误。

char _unused[1024]

不再使用。

struct dcgmDiagStatus_v1
#include <dcgm_structs.h>

诊断实时状态结构 v1。

自 DCGM 4.0 起

Public Members

unsigned int version

此结构的版本。

unsigned int totalTests

将要执行的测试数量。

unsigned int completedTests

已完成的测试数量。

char testName[128]

最后完成的测试的名称。

unsigned int errorCode

最后完成的测试的第一个错误代码 - 成功时为 DCGM_FR_OK,否则为 DCGM_FR_*。

struct dcgmDeviceTopology_v1
#include <dcgm_structs.h>

设备拓扑信息。

Public Members

unsigned int version

版本号 (dcgmDeviceTopology_version)

unsigned long cpuAffinityMask[8]

指定 GPU 的亲和性掩码

1 表示在该位位置与 CPU 的亲和性,最多支持 256 个核心

unsigned int numGpus

gpuPaths 中有效条目的数量

unsigned int gpuId

路径表示的 gpuId

dcgmGpuTopologyLevel_t path

从此 GPU 到 gpuId 的路径。

请注意,这是一个 DCGM_TOPOLOGY_* 值的位掩码,并且可以包含 PCIe 拓扑和 NvLink 拓扑(如果适用)。例如:0x210 = DCGM_TOPOLOGY_CPU | DCGM_TOPOLOGY_NVLINK2 使用宏 DCGM_TOPOLOGY_PATH_NVLINK 和 DCGM_TOPOLOGY_PATH_PCI 分别屏蔽 NvLink 和 PCI 路径。

unsigned int localNvLinkIds

表示连接到 gpuId 的本地链接的位,例如:

如果此字段 == 3,则链接 0 和 1 已连接,仅当 GPU 之间实际存在 NVLINKS 时,该字段才有效

struct dcgmGroupTopology_v1
#include <dcgm_structs.h>

组拓扑信息。

Public Members

unsigned int version

版本号 (dcgmGroupTopology_version)

unsigned long groupCpuAffinityMask[8]

组中所有 GPU 的 CPU 亲和性掩码

1 表示在该位位置与 CPU 的亲和性,最多支持 256 个核心

unsigned int numaOptimalFlag

零值表示组中一个或多个 GPU 具有不同的 CPU 亲和性,因此可能不适合某些算法

dcgmGpuTopologyLevel_t slowestPath

组中 GPU 之间最慢的路径

struct dcgmIntrospectMemory_v1
#include <dcgm_structs.h>

DCGM 内存使用信息。

Public Members

unsigned int version

版本号 (dcgmIntrospectMemory_version)

long long bytesUsed

字节数

struct dcgmIntrospectCpuUtil_v1
#include <dcgm_structs.h>

DCGM CPU 利用率信息。

将数值乘以 100 即可得到百分比 (%)。

Public Members

unsigned int version

版本号 (dcgmMetadataCpuUtil_version)

double total

设备 CPU 资源的使用比例

double kernel

设备 CPU 资源在内核模式下的使用比例

double user

设备 CPU 资源在用户模式下的使用比例

struct dcgmRunDiag_v7

Public Members

unsigned int version

此消息的版本

unsigned int flags

指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断将用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。不能与 gpuList 一起指定。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][100]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 一起指定。

char gpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 一起指定。

char debugLogFile[128]

应该使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码。

或原因的 csv 列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,应多久执行一次提前失败检查。

struct dcgmRunDiag_v8

Public Members

unsigned int version

此消息的版本

unsigned int flags

指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断将用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。不能与 gpuList 一起指定。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][1050]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 一起指定。

char gpuList[50]

逗号分隔的 GPU 列表。不能与 groupId 一起指定。

char debugLogFile[128]

应该使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码。

或原因的 csv 列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,应多久执行一次提前失败检查。

char expectedNumEntities[50]

诊断将要运行的实体预期数量。

struct dcgmRunDiag_v9

Public Members

unsigned int version

此消息的版本

unsigned int flags

指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断将用于日志记录的调试级别。

dcgmGpuGrp_t groupId

要验证的 GPU 组。

不能与 entityIds 一起指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。

dcgmPolicyValidation_t validate

0-3,表示要运行的测试。可选。

char testNames[20][50]

指定的测试名称列表。可选。

char testParms[100][1050]

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

char fakeGpuList[50]

逗号分隔的 GPU 列表。

不能与 groupId 或 entityIds 一起指定。

char debugLogFile[128]

应该使用的调试日志文件的备用名称。

char statsPath[128]

插件的统计文件应写入的路径。

char configFileContents[10000]

nvvs 配置文件的内容(可能是 yaml)

char clocksEventMask[50]

要忽略的时钟事件原因,可以是整数掩码或。

原因的 csv 列表

char pluginPath[128]

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

unsigned int currentIteration

将要执行的当前迭代。

unsigned int totalIterations

将要执行的总迭代次数。

unsigned int timeoutSeconds

诊断的超时时间,以秒为单位。

char _unusedBuf[128]

不再使用。

unsigned int failCheckInterval

启用时,应多久执行一次提前失败检查。

char expectedNumEntities[50]

诊断将要运行的实体预期数量。

char entityIds[2048]

逗号分隔的实体 ID 列表。

不能与 groupId 一起指定。

unsigned int watchFrequency

正在监视的字段的监视频率。

struct dcgmRunDiag_v10

Public Members

unsigned int version

此消息的版本

unsigned int flags

指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*

unsigned int debugLevel

0-5,表示 GPU 诊断将用于日志记录的调试级别。

组 ID

要验证的 GPU 组。

不能与 entityIds 一起指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。

验证

0-3,表示要运行的测试。可选。

测试名称

指定的测试名称列表。可选。

测试参数

为指定测试设置的参数。

格式为:testName.parameterName=parameterValue。可选。

伪造 GPU 列表

逗号分隔的 GPU 列表。

不能与 groupId 或 entityIds 一起指定。

调试日志文件

应该使用的调试日志文件的备用名称。

统计信息路径

插件的统计文件应写入的路径。

配置文件内容

nvvs 配置文件的内容(可能是 yaml)

时钟事件掩码

要忽略的时钟事件原因,可以是整数掩码或。

原因的 csv 列表

插件路径

诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。

当前迭代

将要执行的当前迭代。

总迭代次数

将要执行的总迭代次数。

超时秒数

诊断的超时时间,以秒为单位。

_unusedBuf (未使用缓冲区)

不再使用。

失败检查间隔

启用时,应多久执行一次提前失败检查。

预期实体数量

诊断将要运行的实体预期数量。

实体 ID

逗号分隔的实体 ID 列表。

不能与 groupId 一起指定。

监视频率

正在监视的字段的监视频率。

忽略错误代码

要在不同实体上忽略的错误代码字符串。

dcgmTopoSchedHint_v1 结构体

Public Members

版本

此消息的版本

输入 GPU ID

要从中选择的 GPU ID 位掩码

DCGM 应选择的 GPU 数量

DCGM 应选择的 GPU 数量

提示标志

忽略调度提示中某些因素的提示。

GPU 的 NvLink 链接状态。
#include <dcgm_structs.h>

GPU 的 NvLink 链接状态。

Public Members

实体 ID

GPU 的实体 ID (gpuId)

链接状态

每个 GPU 的链接状态。

dcgmNvLinkGpuLinkStatus_v2 结构体

Public Members

实体 ID

GPU 的实体 ID (gpuId)

链接状态

每个 GPU 的链接状态。

dcgmNvLinkGpuLinkStatus_v3 结构体

Public Members

实体 ID

GPU 的实体 ID (gpuId)

链接状态

每个 GPU 的链接状态。

NvSwitch 的 NvLink 链接状态。
#include <dcgm_structs.h>

NvSwitch 的 NvLink 链接状态。

Public Members

实体 ID

NvSwitch 的实体 ID (physicalId)

链接状态

每个 NvSwitch 的链接状态。

给定系统中所有 NvLink 的状态。
#include <dcgm_structs.h>

给定系统中所有 NvLink 的状态。

Public Members

版本

此请求的版本。应为 dcgmNvLinkStatus_version1。

GPU 数量

gpus[] 中已填充条目的数量。

GPU 数组

每个 GPU 的 NvLink 链接状态。

NvSwitch 数量

nvSwitches[] 中已填充条目的数量。

NvSwitch 数组

每个 NvSwitch 的链接状态。

dcgmSummaryResponse_t 结构体

Public Members

字段类型

已汇总的字段类型 (int64 或 fp64)

汇总计数

values 中已填充的汇总数量


用于存储每个汇总值的数组。

摘要按顺序存储。例如,如果请求 MIN 和 MAX,则 0 将为 MIN,1 将为 MAX。如果请求 AVG 和 DIFF,则 AVG 将为 0,1 将为 DIFF

dcgmFieldSummaryRequest_v1 结构体

Public Members

版本

此消息的版本 - dcgmFieldSummaryRequest_v1

字段 ID

要汇总的字段 ID

实体组 ID

我们要获取其字段的实体类型

实体 ID

此实体的序号 ID

汇总类型掩码

DCGM_SUMMARY_* 的位掩码,请求的摘要

开始时间

要汇总的时间间隔的开始时间。

0 表示使用之前的任何数据。

结束时间

要汇总的时间间隔的结束时间。

0 表示使用之后的任何数据。

响应

此请求的响应数据

dcgmModuleGetStatusesModule_t 结构体
#include <dcgm_structs.h>

主机引擎所有模块的状态。

Public Members

ID

此模块的 ID。

状态

此模块的状态。

dcgmModuleGetStatuses_v1 结构体

Public Members

版本

此请求的版本。应为 dcgmModuleGetStatuses_version1。

状态数量

statuses[] 中已填充条目的数量。

状态数组

每个模块的状态信息。

dcgmStartEmbeddedV2Params_v1 的选项。
#include <dcgm_structs.h>

dcgmStartEmbeddedV2Params_v1 的选项。

在 DCGM 2.0.0 中添加

Public Members

版本

版本号。使用 dcgmStartEmbeddedV2Params_version1

操作模式

输入:自动或在用户要求时手动收集数据。

DCGM 句柄

输出:用于 API 调用的 DCGM 句柄

日志文件

输入:DCGM 应记录到的文件。NULL = 不记录。“-” = stdout

严重性

输入:DCGM 应记录到 logFile 的严重性

拒绝列表计数

输入:denyList[] 中的模块数

dcgmStartEmbeddedV2Params_v2 的选项。
#include <dcgm_structs.h>

dcgmStartEmbeddedV2Params_v2 的选项。

在 DCGM 2.4.0 中添加,在 3.0.0 中重命名成员

Public Members

版本

版本号。使用 dcgmStartEmbeddedV2Params_version2

操作模式

输入:自动或在用户要求时手动收集数据。

DCGM 句柄

输出:用于 API 调用的 DCGM 句柄

日志文件

输入:DCGM 应记录到的文件。NULL = 不记录。“-” = stdout

严重性

输入:DCGM 应记录到 logFile 的严重性

unsigned int denyListCount

输入:要添加到 denyList[] 中拒绝列表的模块数量

const char *serviceAccount

输入:非特权进程的服务帐户

unsigned int denyList[DcgmModuleIdCount]

输入:要添加到拒绝列表的模块 ID

struct dcgmProfMetricGroupInfo_v2
#include <dcgm_structs.h>

用于返回给定 groupId 可用的所有性能分析指标组的结构。

Public Members

unsigned short majorId

此指标组的主 ID。

具有相同 majorId 的指标组不能与其他具有相同 majorId 的指标组同时被监视

unsigned short minorId

此指标组的次 ID。

这用于区分同一主指标组内的不同指标组

unsigned int numFieldIds

在 fieldIds[] 中填充的字段 ID 数量。

unsigned short fieldIds[64]

属于此性能分析的 DCGM 字段 ID。

组。 有关详细信息,请参阅 dcgm_fields.h 中的 DCGM_FI_PROF_* 定义。

struct dcgmProfGetMetricGroups_v3

输入参数

unsigned int version

此请求的版本。应为 dcgmProfGetMetricGroups_version。

unsigned int unused

目前未使用。设置为 0。

unsigned int gpuId

我们应该获取其指标组的 GPU ID。

输出

unsigned int numMetricGroups

metricGroups[] 中已填充的条目数。

dcgmProfMetricGroupInfo_v2 metricGroups[10]

每个指标组的信息。

struct dcgmSettingsSetLoggingSeverity_v1
#include <dcgm_structs.h>

dcgmSettingsSetLoggingSeverity_t 的版本 1。

struct dcgmSettingsSetLoggingSeverity_v2
#include <dcgm_structs.h>

dcgmSettingsSetLoggingSeverity_t 的版本 2。

struct dcgmVersionInfo_v2
#include <dcgm_structs.h>

用于描述 DCGM 构建环境版本 2.0 的结构。

Public Members

char rawBuildInfoString[256 * 2]

DCGM 构建信息的原始形式。

可能有多个键值对,用分号 (;) 分隔。

每对键值对都用冒号 (:) 分隔。只有第一个冒号被视为分隔符。

值可以包含冒号字符。值和键不能包含分号字符。

通常定义的键是

version : DCGM 版本。arch : 目标 DCGM 架构。buildid : 构建 ID。通常是一个序列号。commit : 提交 ID(通常是 git 提交哈希值)。author : 上述提交的作者。branch : 分支(通常是用于构建的 git 分支)。buildtype : 构建类型。builddate : 构建日期。buildplatform : 进行构建的平台。

任何或所有键都可能不存在。

这些值仅供参考,不应参与任何复杂的逻辑。