结构定义
- group dcgmStructs
未命名组
-
DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"
运行 GPU 诊断的标志选项。
-
DCGM_RUN_FLAGS_VERBOSE 0x0001
在详细模式下输出;包括信息以及警告。
-
DCGM_RUN_FLAGS_STATSONFAIL 0x0002
仅在失败时输出统计信息。
-
DCGM_RUN_FLAGS_TRAIN 0x0004
未使用 训练 DCGM 诊断并输出包含黄金值的配置文件。
-
DCGM_RUN_FLAGS_FORCE_TRAIN 0x0008
未使用 忽略针对训练诊断的警告并强制训练。
-
DCGM_RUN_FLAGS_FAIL_EARLY 0x0010
为目标压力测试、目标电源测试、SM 压力测试和诊断测试启用提前失败检查。
未命名组
-
DCGM_TOPO_HINT_F_NONE 0x00000000
用于 dcgmSelectGpusByTopology() 的拓扑提示
未指定任何提示
-
DCGM_TOPO_HINT_F_IGNOREHEALTH 0x00000001
在为作业执行选择 GPU 时,忽略 GPU 的健康状况。
默认情况下,仅考虑健康的 GPU。
定义
-
dcgmConnectV2Params_version1 MAKE_DCGM_VERSION(dcgmConnectV2Params_v1, 1)
dcgmConnectV2Params_v1 的版本 1。
-
dcgmConnectV2Params_version2 MAKE_DCGM_VERSION(dcgmConnectV2Params_v2, 2)
dcgmConnectV2Params_v2 的版本 2。
-
dcgmConnectV2Params_version dcgmConnectV2Params_version2
dcgmConnectV2Params_t 的最新版本。
-
dcgmHostengineHealth_version1 MAKE_DCGM_VERSION(dcgmHostengineHealth_v1, 1)
-
dcgmHostengineHealth_version dcgmHostengineHealth_version1
dcgmHostengineHealth_t 的最新版本。
-
dcgmGroupInfo_version2 MAKE_DCGM_VERSION(dcgmGroupInfo_v2, 2)
dcgmGroupInfo_v2 的版本 2。
-
dcgmGroupInfo_version3 MAKE_DCGM_VERSION(dcgmGroupInfo_v3, 3)
dcgmGroupInfo_v3 的版本 3。
-
dcgmGroupInfo_version dcgmGroupInfo_version3
dcgmGroupInfo_t 的最新版本。
-
DCGM_MAX_INSTANCES_PER_GPU 8
-
DCGM_MAX_COMPUTE_INSTANCES_PER_GPU DCGM_MAX_INSTANCES_PER_GPU
-
DCGM_MAX_TOTAL_INSTANCES_PER_GPU 14
-
DCGM_MAX_HIERARCHY_INFO DCGM_MAX_NUM_DEVICES *DCGM_MAX_TOTAL_INSTANCES_PER_GPU
-
DCGM_MAX_INSTANCES DCGM_MAX_NUM_DEVICES *DCGM_MAX_INSTANCES_PER_GPU
-
DCGM_MAX_COMPUTE_INSTANCES DCGM_MAX_INSTANCES
-
dcgmMigHierarchy_version2 MAKE_DCGM_VERSION(dcgmMigHierarchy_v2, 2)
-
dcgmMigHierarchy_version dcgmMigHierarchy_version2
-
DCGM_CPU_CORE_BITMASK_COUNT_V1 (DCGM_MAX_NUM_CPU_CORES / sizeof(uint64_t) / CHAR_BIT)
指示此 CPU 拥有的内核的位掩码。
-
dcgmCpuHierarchyOwnedCores_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchyOwnedCores_v1, 1)
-
dcgmCpuHierarchy_version1 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v1, 1)
dcgmCpuHierarchy_t 的版本 1。
-
dcgmCpuHierarchy_version2 MAKE_DCGM_VERSION(dcgmCpuHierarchy_v2, 2)
dcgmCpuHierarchy_t 的版本 2。
-
dcgmCpuHierarchy_version dcgmCpuHierarchy_version2
dcgmCpuHierarchy_t 的最新版本。
-
DCGM_MAX_NUM_FIELD_GROUPS 64
可以存在的最大字段组数。
-
DCGM_MAX_FIELD_IDS_PER_FIELD_GROUP 128
单个字段组中可以包含的最大字段 ID 数。
-
dcgmFieldGroupInfo_version1 MAKE_DCGM_VERSION(dcgmFieldGroupInfo_v1, 1)
dcgmFieldGroupInfo_v1 的版本 1。
-
dcgmFieldGroupInfo_version dcgmFieldGroupInfo_version1
dcgmFieldGroupInfo_t 的最新版本。
-
dcgmAllFieldGroup_version1 MAKE_DCGM_VERSION(dcgmAllFieldGroup_v1, 1)
dcgmAllFieldGroup_v1 的版本 1。
-
dcgmAllFieldGroup_version dcgmAllFieldGroup_version1
dcgmAllFieldGroup_t 的最新版本。
-
dcgmClockSet_version1 MAKE_DCGM_VERSION(dcgmClockSet_v1, 1)
dcgmClockSet_v1 的版本 1。
-
dcgmClockSet_version dcgmClockSet_version1
dcgmClockSet_t 的最新版本。
-
dcgmDeviceSupportedClockSets_version1 MAKE_DCGM_VERSION(dcgmDeviceSupportedClockSets_v1, 1)
-
dcgmDeviceSupportedClockSets_version dcgmDeviceSupportedClockSets_version1
-
dcgmDevicePidAccountingStats_version1 MAKE_DCGM_VERSION(dcgmDevicePidAccountingStats_v1, 1)
-
dcgmDevicePidAccountingStats_version dcgmDevicePidAccountingStats_version1
-
dcgmDeviceThermals_version1 MAKE_DCGM_VERSION(dcgmDeviceThermals_v1, 1)
dcgmDeviceThermals_v1 的版本 1。
-
dcgmDeviceThermals_version dcgmDeviceThermals_version1
dcgmDeviceThermals_t 的最新版本。
-
dcgmDevicePowerLimits_version1 MAKE_DCGM_VERSION(dcgmDevicePowerLimits_v1, 1)
dcgmDevicePowerLimits_v1 的版本 1。
-
dcgmDevicePowerLimits_version dcgmDevicePowerLimits_version1
dcgmDevicePowerLimits_t 的最新版本。
-
dcgmDeviceIdentifiers_version1 MAKE_DCGM_VERSION(dcgmDeviceIdentifiers_v1, 1)
dcgmDeviceIdentifiers_v1 的版本 1。
-
dcgmDeviceIdentifiers_version dcgmDeviceIdentifiers_version1
dcgmDeviceIdentifiers_t 的最新版本。
-
dcgmDeviceMemoryUsage_version1 MAKE_DCGM_VERSION(dcgmDeviceMemoryUsage_v1, 1)
dcgmDeviceMemoryUsage_v1 的版本 1。
-
dcgmDeviceMemoryUsage_version dcgmDeviceMemoryUsage_version1
dcgmDeviceMemoryUsage_t 的最新版本。
-
dcgmDeviceVgpuUtilInfo_version1 MAKE_DCGM_VERSION(dcgmDeviceVgpuUtilInfo_v1, 1)
dcgmDeviceVgpuUtilInfo_v1 的版本 1。
-
dcgmDeviceVgpuUtilInfo_version dcgmDeviceVgpuUtilInfo_version1
dcgmDeviceVgpuUtilInfo_t 的最新版本。
-
dcgmDeviceEncStats_version1 MAKE_DCGM_VERSION(dcgmDeviceEncStats_v1, 1)
dcgmDeviceEncStats_v1 的版本 1。
-
dcgmDeviceEncStats_version dcgmDeviceEncStats_version1
-
Version 1 for dcgmDeviceFbcStats_v1。
-
Version 1 for dcgmDeviceFbcSessionInfo_v1。
-
Latest version for dcgmDeviceFbcSessionInfo_t。
-
Version 1 for dcgmDeviceFbcSessions_v1。
-
Latest version for dcgmDeviceFbcSessions_t。
-
Version 1 for dcgmDeviceVgpuEncSessions_v1。
-
Latest version for dcgmDeviceVgpuEncSessions_t。
-
Version 1 for dcgmDeviceVgpuProcessUtilInfo_v1。
-
Latest version for dcgmDeviceVgpuProcessUtilInfo_t。
-
Version 1 for dcgmDeviceVgpuTypeInfo_v1。
-
Version 2 for dcgmDeviceVgpuTypeInfo_v2。
-
Latest version for dcgmDeviceVgpuTypeInfo_t。
-
Version 1 for dcgmDeviceSupportedVgpuTypeInfo_v1。
-
Latest version for dcgmDeviceSupportedVgpuTypeInfo_t。
-
Version 3 for dcgmDeviceAttributes_v3。
-
Latest version for dcgmDeviceAttributes_t。
-
Version 1 for dcgmDeviceMigAttributesInfo_v1。
-
Latest version for dcgmDeviceMigAttributesInfo_t。
-
Version 1 for dcgmDeviceMigAttributes_v1。
-
Latest version for dcgmDeviceMigAttributes_t。
-
Version 1 for dcgmGpuInstanceProfileInfo_v1。
-
Latest version for dcgmGpuInstanceProfileInfo_t。
-
Version 1 for dcgmGpuInstanceProfiles_v1。
-
Latest version for dcgmGpuInstanceProfiles_t。
-
Version 1 for dcgmComputeInstanceProfileInfo_v1。
-
Latest version for dcgmComputeInstanceProfileInfo_t。
-
Version 1 for dcgmComputeInstanceProfiles_v1。
-
Latest version for dcgmComputeInstanceProfiles_t。
-
Maximum number of vGPU types per physical GPU.
-
Represents the size of a buffer that holds string related to attributes specific to vGPU instance.
-
Workload power profile information.
-
Version 1 for dcgmConfig_v1。
-
Latest version for dcgmConfig_t。
-
Version 1 for dcgmPolicy_v1。
-
Latest version for dcgmPolicy_t。
-
Version 2 for dcgmPolicyCallbackResponse_v2。
-
Latest version for dcgmPolicyCallbackResponse_t。
-
Set above size of largest blob entry.
Currently this is dcgmDeviceVgpuTypeInfo_v1
-
Version 1 for dcgmFieldValue_v1。
-
Version 2 for dcgmFieldValue_v2。
-
Field value flags used by dcgmEntitiesGetLatestValues。
Retrieve live data from the driver rather than cached data. Warning: Setting this flag will result in multiple calls to the NVIDIA driver that will be much slower than retrieving a cached value.
-
For iterating through the dcgmHealthSystems_v1 enum
-
For iterating through the dcgmHealthSystems_v2 enum
-
Version 1 for dcgmDiagTestAuxData_v1。
-
The maximum number of per-entity errors that can be reported.
-
The maximum number of per-entity info msgs that can be reported.
-
The maximum number of per-entity results that can be reported.
-
The maximum number of characters (including ‘\0’) used for a name.
-
SKU Device ID (string)
-
DCGM Version (string)
-
Version 5 for dcgmHealthResponse_v5。
-
Latest version for dcgmHealthResponse_t。
-
Version 2 for dcgmHealthSet_v2。
-
Version 2 for dcgmPidInfo_v2。
-
Latest version for dcgmPidInfo_t。
-
Version 3 for dcgmJobInfo_v3。
-
Latest version for dcgmJobInfo_t。
-
Version 1 for dcgmRunningProcess_v1。
-
Latest version for dcgmRunningProcess_t。
-
Maximum number of plugins that can return results.
-
Used to flag an error as a system error.
-
Maximum number of errors that can be reported.
This must match DCGM_DIAG_PLUGINRUN_ERROR_INDICES_MAX.
-
Maximum number of info msgs that can be reported.
This must match DCGM_DIAG_TEST_RUN_INFO_INDICES_MAX.
-
DCGM_DIAG_RESPONSE_ENTITIES_MAX DCGM_GROUP_MAX_ENTITIES_V2
可以报告的最大实体数量。
-
DCGM_DIAG_RESPONSE_RESULTS_MAX (DCGM_DIAG_RESPONSE_TESTS_MAX
\
*
DCGM_DIAG_RESPONSE_ENTITIES_MAX) 可以报告的最大结果数量。
-
DCGM_DIAG_RESPONSE_CATEGORIES_MAX 5
部署 | 硬件 | 集成 | 压力 四者之一。
-
DCGM_DIAG_RESPONSE_CATEGORY_LEN 20
每个类别的字节数(包括 ‘\0’)。
-
DCGM_DIAG_RESPONSE_V11_UNUSED_LEN 682880
diagResponse_v11 中的未使用字节,用于与 v10 及更早版本兼容。
-
dcgmDiagResponse_version11 MAKE_DCGM_VERSION(dcgmDiagResponse_v11, 11)
dcgmDiagResponse_v11 的版本 11。
-
dcgmDiagResponse_version10 MAKE_DCGM_VERSION(dcgmDiagResponse_v10, 10)
dcgmDiagResponse_v11 的版本 10。
-
dcgmDiagResponse_version9 MAKE_DCGM_VERSION(dcgmDiagResponse_v9, 9)
dcgmDiagResponse_v9 的版本 9。
-
dcgmDiagResponse_version8 MAKE_DCGM_VERSION(dcgmDiagResponse_v8, 8)
dcgmDiagResponse_v8 的版本 8。
-
dcgmDiagResponse_version7 MAKE_DCGM_VERSION(dcgmDiagResponse_v7, 7)
dcgmDiagResponse_v7 的版本 7。
-
dcgmDiagResponse_version dcgmDiagResponse_version11
dcgmDiagResponse_t 的最新版本。
-
dcgmDiagStatus_version1 MAKE_DCGM_VERSION(dcgmDiagStatus_v1, 1)
dcgmDiagStatus_v1 的版本 1。
-
dcgmDiagStatus_version dcgmDiagStatus_version1
dcgmDiagStatus_t 的最新版本。
-
DCGM_TOPOLOGY_PATH_PCI(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFF)
-
DCGM_TOPOLOGY_PATH_NVLINK(x) (dcgmGpuTopologyLevel_t)((unsigned int)(x) & 0xFFFFFF00)
-
DCGM_AFFINITY_BITMASK_ARRAY_SIZE 8
-
dcgmDeviceTopology_version1 MAKE_DCGM_VERSION(dcgmDeviceTopology_v1, 1)
dcgmDeviceTopology_v1 的版本 1。
-
dcgmDeviceTopology_version dcgmDeviceTopology_version1
dcgmDeviceTopology_t 的最新版本。
-
dcgmGroupTopology_version1 MAKE_DCGM_VERSION(dcgmGroupTopology_v1, 1)
dcgmGroupTopology_v1 的版本 1。
-
dcgmGroupTopology_version dcgmGroupTopology_version1
dcgmGroupTopology_t 的最新版本。
-
dcgmIntrospectMemory_version1 MAKE_DCGM_VERSION(dcgmIntrospectMemory_v1, 1)
dcgmIntrospectMemory_t 的版本 1。
-
dcgmIntrospectMemory_version dcgmIntrospectMemory_version1
dcgmIntrospectMemory_t 的最新版本。
-
dcgmIntrospectCpuUtil_version1 MAKE_DCGM_VERSION(dcgmIntrospectCpuUtil_v1, 1)
dcgmIntrospectCpuUtil_t 的版本 1。
-
dcgmIntrospectCpuUtil_version dcgmIntrospectCpuUtil_version1
dcgmIntrospectCpuUtil_t 的最新版本。
-
DCGM_MAX_CONFIG_FILE_LEN 10000
-
DCGM_MAX_TEST_NAMES 20
-
DCGM_MAX_TEST_NAMES_LEN 50
-
DCGM_MAX_TEST_PARMS 100
-
DCGM_MAX_TEST_PARMS_LEN 100
-
DCGM_MAX_TEST_PARMS_LEN_V2 1050
-
DCGM_GPU_LIST_LEN 50
-
DCGM_ENTITY_ID_LIST_LEN 2048
-
DCGM_EXPECTED_ENTITIES_LEN 50
-
DCGM_FILE_LEN 30
-
DCGM_PATH_LEN 128
-
DCGM_CLOCKS_EVENT_MASK_LEN 50
-
DCGM_IGNORE_ERROR_MAX_LEN 512
-
DCGM_THROTTLE_MASK_LEN DCGM_CLOCKS_EVENT_MASK_LEN
-
dcgmRunDiag_version7 MAKE_DCGM_VERSION(dcgmRunDiag_v7, 7)
dcgmRunDiag_t 的版本 7。
-
dcgmRunDiag_version8 MAKE_DCGM_VERSION(dcgmRunDiag_v8, 8)
dcgmRunDiag_t 的版本 8。
-
dcgmRunDiag_version9 MAKE_DCGM_VERSION(dcgmRunDiag_v9, 9)
dcgmRunDiag_t 的版本 9。
-
dcgmRunDiag_version10 MAKE_DCGM_VERSION(dcgmRunDiag_v10, 10)
dcgmRunDiag_t 的版本 10。
-
DCGM_GEGE_FLAG_ONLY_SUPPORTED 0x00000001
dcgmGetEntityGroupEntities 的 flags 参数的标志。
仅返回 DCGM 支持的实体。 这模拟了 dcgmGetAllSupportedDevices() 的行为。
-
dcgmTopoSchedHint_version1 MAKE_DCGM_VERSION(dcgmTopoSchedHint_v1, 1)
-
dcgmNvLinkStatus_version4 MAKE_DCGM_VERSION(dcgmNvLinkStatus_v4, 4)
dcgmNvLinkStatus 的版本 4。
-
DCGM_SUMMARY_MIN 0x00000001
-
DCGM_SUMMARY_MAX 0x00000002
-
DCGM_SUMMARY_AVG 0x00000004
-
DCGM_SUMMARY_SUM 0x00000008
-
DCGM_SUMMARY_COUNT 0x00000010
-
DCGM_SUMMARY_INTEGRAL 0x00000020
-
DCGM_SUMMARY_DIFF 0x00000040
-
DCGM_SUMMARY_SIZE 7
-
dcgmFieldSummaryRequest_version1 MAKE_DCGM_VERSION(dcgmFieldSummaryRequest_v1, 1)
-
DCGM_MODULE_STATUSES_CAPACITY 16
-
dcgmModuleGetStatuses_version1 MAKE_DCGM_VERSION(dcgmModuleGetStatuses_v1, 1)
dcgmModuleGetStatuses 的版本 1。
-
dcgmModuleGetStatuses_version dcgmModuleGetStatuses_version1
-
dcgmStartEmbeddedV2Params_version1 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v1, 1)
dcgmStartEmbeddedV2Params_v1 的版本 1。
-
dcgmStartEmbeddedV2Params_version2 MAKE_DCGM_VERSION(dcgmStartEmbeddedV2Params_v2, 2)
dcgmStartEmbeddedV2Params 的版本 2。
-
DCGM_PROF_MAX_NUM_GROUPS_V2 10
DCGM 中可以存在的最大指标 ID 组数。
-
DCGM_PROF_MAX_FIELD_IDS_PER_GROUP_V2 64
单个 DCGM 性能分析指标组中可以包含的最大字段 ID 数。
-
dcgmProfGetMetricGroups_version3 MAKE_DCGM_VERSION(dcgmProfGetMetricGroups_v3, 3)
dcgmProfGetMetricGroups_t 的版本 3。
不支持旧版本
-
dcgmProfGetMetricGroups_version dcgmProfGetMetricGroups_version3
-
dcgmSettingsSetLoggingSeverity_version1 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v1, 1)
-
dcgmSettingsSetLoggingSeverity_version2 MAKE_DCGM_VERSION(dcgmSettingsSetLoggingSeverity_v2, 2)
-
dcgmSettingsSetLoggingSeverity_version dcgmSettingsSetLoggingSeverity_version2
-
dcgmVersionInfo_version2 MAKE_DCGM_VERSION(dcgmVersionInfo_v2, 2)
dcgmVersionInfo_v2 的版本 2。
-
dcgmVersionInfo_version dcgmVersionInfo_version2
类型定义
-
typedef uintptr_t dcgmHandle_t
DCGM 句柄的标识符。
-
typedef uintptr_t dcgmGpuGrp_t
GPU 组的标识符。 一个组可以包含一个或多个 GPU。
-
typedef uintptr_t dcgmFieldGrp_t
字段组的标识符。
-
typedef uintptr_t dcgmStatus_t
状态代码列表的标识符。
-
typedef struct dcgm_link_s dcgm_link_t
表示链接对象。
类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一; gpuId 或 switchID 是关联的 gpu 或交换机; index 是链接索引,从 0 开始,TX(偶数)在 RX(奇数)之前。
-
typedef dcgmConnectV2Params_v2 dcgmConnectV2Params_t
dcgmConnectV2Params_v2 的类型定义。
-
typedef dcgmHostengineHealth_v1 dcgmHostengineHealth_t
dcgmHostengineHealth_t 的类型定义。
-
typedef dcgmGroupInfo_v3 dcgmGroupInfo_t
dcgmGroupInfo_v3 的类型定义。
-
typedef dcgmCpuHierarchyOwnedCores_v1 dcgmCpuHierarchyOwnedCores_t
-
typedef dcgmCpuHierarchy_v2 dcgmCpuHierarchy_t
-
typedef dcgmFieldGroupInfo_v1 dcgmFieldGroupInfo_t
-
typedef dcgmAllFieldGroup_v1 dcgmAllFieldGroup_t
-
typedef dcgmClockSet_v1 dcgmClockSet_t
dcgmClockSet_v1 的类型定义。
-
typedef dcgmDeviceSupportedClockSets_v1 dcgmDeviceSupportedClockSets_t
-
typedef dcgmDevicePidAccountingStats_v1 dcgmDevicePidAccountingStats_t
typedef dcgmDevicePidAccountingStats_v1 的类型定义。
-
typedef dcgmDeviceThermals_v1 dcgmDeviceThermals_t
typedef dcgmDeviceThermals_v1 的类型定义。
-
typedef dcgmDevicePowerLimits_v1 dcgmDevicePowerLimits_t
typedef dcgmDevicePowerLimits_v1 的类型定义。
-
typedef dcgmDeviceIdentifiers_v1 dcgmDeviceIdentifiers_t
typedef dcgmDeviceIdentifiers_v1 的类型定义。
-
typedef dcgmDeviceMemoryUsage_v1 dcgmDeviceMemoryUsage_t
typedef dcgmDeviceMemoryUsage_v1 的类型定义。
-
typedef dcgmDeviceVgpuUtilInfo_v1 dcgmDeviceVgpuUtilInfo_t
typedef dcgmDeviceVgpuUtilInfo_v1 的类型定义。
-
typedef dcgmDeviceEncStats_v1 dcgmDeviceEncStats_t
typedef dcgmDeviceEncStats_v1 的类型定义。
-
typedef dcgmDeviceFbcStats_v1 dcgmDeviceFbcStats_t
typedef dcgmDeviceFbcStats_v1 的类型定义。
-
typedef enum dcgmFBCSessionType_enum dcgmFBCSessionType_t
-
typedef dcgmDeviceFbcSessionInfo_v1 dcgmDeviceFbcSessionInfo_t
typedef dcgmDeviceFbcSessionInfo_v1 的类型定义。
-
typedef dcgmDeviceFbcSessions_v1 dcgmDeviceFbcSessions_t
typedef dcgmDeviceFbcSessions_v1 的类型定义。
-
typedef enum dcgmEncoderQueryType_enum dcgmEncoderType_t
-
typedef dcgmDeviceVgpuEncSessions_v1 dcgmDeviceVgpuEncSessions_t
typedef dcgmDeviceVgpuEncSessions_v1 的类型定义。
-
typedef dcgmDeviceVgpuProcessUtilInfo_v1 dcgmDeviceVgpuProcessUtilInfo_t
typedef dcgmDeviceVgpuProcessUtilInfo_v1 的类型定义。
-
typedef dcgmDeviceVgpuTypeInfo_v2 dcgmDeviceVgpuTypeInfo_t
typedef dcgmDeviceVgpuTypeInfo_v2 的类型定义。
-
typedef dcgmDeviceSupportedVgpuTypeInfo_v1 dcgmDeviceSupportedVgpuTypeInfo_t
typedef dcgmDeviceSupportedVgpuTypeInfo_v1 的类型定义。
-
typedef dcgmDeviceSettings_v2 dcgmDeviceSettings_t
-
typedef dcgmDeviceAttributes_v3 dcgmDeviceAttributes_t
typedef dcgmDeviceAttributes_v3 的类型定义。
-
typedef dcgmDeviceMigAttributesInfo_v1 dcgmDeviceMigAttributesInfo_t
typedef dcgmDeviceMigAttributesInfo_v1 的类型定义。
-
typedef dcgmDeviceMigAttributes_v1 dcgmDeviceMigAttributes_t
typedef dcgmDeviceMigAttributes_v1 的类型定义。
-
typedef dcgmGpuInstanceProfileInfo_v1 dcgmGpuInstanceProfileInfo_t
typedef dcgmGpuInstanceProfileInfo_v1 的类型定义。
-
typedef dcgmGpuInstanceProfiles_v1 dcgmGpuInstanceProfiles_t
typedef dcgmGpuInstanceProfiles_v1 的类型定义。
-
typedef dcgmComputeInstanceProfileInfo_v1 dcgmComputeInstanceProfileInfo_t
typedef dcgmComputeInstanceProfileInfo_v1 的类型定义。
-
typedef dcgmComputeInstanceProfiles_v1 dcgmComputeInstanceProfiles_t
typedef dcgmComputeInstanceProfiles_v1 的类型定义。
-
typedef dcgmWorkloadPowerProfileInfo_v1 dcgmWorkloadPowerProfileInfo_t
-
typedef dcgmWorkloadPowerProfileProfilesInfo_v1 dcgmWorkloadPowerProfileProfilesInfo_t
-
typedef dcgmDeviceWorkloadPowerProfilesStatus_v1 dcgmDeviceWorkloadPowerProfilesStatus_t
-
typedef dcgmConfig_v2 dcgmConfig_t
typedef dcgmConfig_v1 的类型定义。
-
typedef dcgmPolicyViolation_v1 dcgmPolicyViolation_t
-
typedef enum dcgmPolicyConditionIdx_enum dcgmPolicyConditionIdx_t
策略条件的枚举。
当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值
-
typedef enum dcgmPolicyCondition_enum dcgmPolicyCondition_t
策略条件的位掩码枚举。
当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值
-
typedef struct dcgmPolicyConditionParams_st dcgmPolicyConditionParams_t
策略条件参数的结构体。
此结构体包含一个标签,表示作为参数传递的值的类型,以及一个 “val”,它是可能的值类型的联合。例如,要传递一个 true 布尔值:tag = BOOL,val.boolean = 1。
-
typedef enum dcgmPolicyMode_enum dcgmPolicyMode_t
策略模式的枚举。
-
typedef enum dcgmPolicyIsolation_enum dcgmPolicyIsolation_t
策略隔离模式的枚举。
-
typedef enum dcgmPolicyAction_enum dcgmPolicyAction_t
策略动作的枚举。
-
typedef enum dcgmPolicyValidation_enum dcgmPolicyValidation_t
策略验证动作的枚举。
-
typedef enum dcgmPolicyFailureResp_enum dcgmPolicyFailureResp_t
策略失败响应的枚举。
-
typedef dcgmPolicy_v1 dcgmPolicy_t
typedef dcgmPolicy_v1 的类型定义。
-
typedef dcgmPolicyCallbackResponse_v2 dcgmPolicyCallbackResponse_t
typedef dcgmPolicyCallbackResponse_v2 的类型定义。
-
typedef int (*fpRecvUpdates)(dcgmPolicyCallbackResponse_t *response, uint64_t userData)
表示从异步函数接收更新的回调。
当前唯一实现的回调函数是 dcgmPolicyRegister_v2。
-
typedef int (*dcgmFieldValueEnumeration_f)(unsigned int gpuId, dcgmFieldValue_v1 *values, int numValues, void *userData)
用于处理一个或多个字段更新的用户回调函数。
此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改
- Param gpuId:
IN:此字段值集所属的 GPU 的 GPU ID
- Param values:
IN:字段值。这些值必须被复制,因为它们将在该调用返回后立即被销毁。
- Param numValues:
IN:values[] 中有效的条目数
- Param userData:
IN:传递给生成此回调的更新函数的用户数据指针
- Return:
0 表示正常,<0 表示枚举应停止。这允许被调用者中止字段值枚举。
-
typedef int (*dcgmFieldValueEntityEnumeration_f)(dcgm_field_entity_group_t entityGroupId, dcgm_field_eid_t entityId, dcgmFieldValue_v1 *values, int numValues, void *userData)
用于处理一个或多个字段更新的用户回调函数。
此回调函数将为每个字段调用一次或多次,直到枚举完所有预期的字段值。由被调用者检测字段 ID 何时更改
- Param entityGroupId:
IN:此字段值集所属的实体的 entityGroup
- Param entityId:
IN:此字段值集所属的实体
- Param values:
IN:字段值。这些值必须被复制,因为它们将在该调用返回后立即被销毁。
- Param numValues:
IN:values[] 中有效的条目数
- Param userData:
IN:传递给生成此回调的更新函数的用户数据指针
- Return:
0 表示正常,<0 表示枚举应停止。这允许被调用者中止字段值枚举。
-
typedef enum dcgmHealthSystems_enum dcgmHealthSystems_t
用于启用或禁用健康监控系统的系统结构。
-
typedef enum dcgmHealthWatchResult_enum dcgmHealthWatchResults_t
健康监控测试结果。
-
typedef enum dcgmDiagResult_enum dcgmDiagResult_t
诊断测试结果。
-
typedef dcgmHealthResponse_v5 dcgmHealthResponse_t
typedef dcgmHealthResponse_v5 的类型定义。
-
typedef dcgmPidInfo_v2 dcgmPidInfo_t
typedef dcgmPidInfo_v2 的类型定义。
-
typedef dcgmJobInfo_v3 dcgmJobInfo_t
typedef dcgmJobInfo_v3 的类型定义。
-
typedef dcgmRunningProcess_v1 dcgmRunningProcess_t
typedef dcgmRunningProcess_v1 的类型定义。
-
typedef enum dcgmPerGpuTestIndices_enum dcgmPerGpuTestIndices_t
每个 GPU 测试的诊断 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。
-
typedef enum dcgmSoftwareTest_enum dcgmSoftwareTest_t
-
typedef dcgmDiagResponse_v11 dcgmDiagResponse_t
typedef dcgmDiagResponse_v11 的类型定义。
-
typedef dcgmDiagStatus_v1 dcgmDiagStatus_t
-
typedef enum dcgmGpuLevel_enum dcgmGpuTopologyLevel_t
表示系统中两个 GPU 之间级别关系的级别。枚举值之间留有间隔,以便将来扩展关系。
这些与 nvml.h 中的定义匹配
-
typedef dcgmDeviceTopology_v1 dcgmDeviceTopology_t
typedef dcgmDeviceTopology_v1 的类型定义。
-
typedef dcgmGroupTopology_v1 dcgmGroupTopology_t
typedef dcgmGroupTopology_v1 的类型定义。
-
typedef dcgmIntrospectMemory_v1 dcgmIntrospectMemory_t
typedef dcgmIntrospectMemory_t 的类型定义。
-
typedef dcgmIntrospectCpuUtil_v1 dcgmIntrospectCpuUtil_t
typedef dcgmIntrospectCpuUtil_t 的类型定义。
-
typedef enum dcgmGpuNVLinkErrorType_enum dcgmGpuNVLinkErrorType_t
标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。
-
typedef dcgmTopoSchedHint_v1 dcgmTopoSchedHint_t
-
typedef enum dcgmNvLinkLinkState_enum dcgmNvLinkLinkState_t
NvLink 链路状态。
-
typedef dcgmNvLinkStatus_v4 dcgmNvLinkStatus_t
-
typedef dcgmFieldSummaryRequest_v1 dcgmFieldSummaryRequest_t
-
typedef dcgmModuleGetStatuses_v1 dcgmModuleGetStatuses_t
-
typedef dcgmProfGetMetricGroups_v3 dcgmProfGetMetricGroups_t
-
typedef dcgmSettingsSetLoggingSeverity_v2 dcgmSettingsSetLoggingSeverity_t
-
typedef dcgmVersionInfo_v2 dcgmVersionInfo_t
枚举
-
enum DcgmLoggingSeverity_t
DCGM 日志记录严重级别。
这些级别与 Severity.h 中定义的 plog 严重级别相匹配。每个级别都包含其上方所有级别。例如,级别 4 也包含 3、2 和 1。
值
-
enumerator DcgmLoggingSeverityUnspecified
不在意/从环境继承
-
enumerator DcgmLoggingSeverityNone
不记录日志
-
enumerator DcgmLoggingSeverityFatal
致命错误
-
enumerator DcgmLoggingSeverityError
错误
-
enumerator DcgmLoggingSeverityWarning
警告
-
enumerator DcgmLoggingSeverityInfo
信息性
-
enumerator DcgmLoggingSeverityDebug
调试信息(将生成大型日志)
-
enumerator DcgmLoggingSeverityVerbose
详细调试信息
-
enumerator DcgmLoggingSeverityUnspecified
-
enum dcgmMigProfile_t
用于不同类型 MIG 配置文件的枚举。
值
-
enumerator DcgmMigProfileNone
无配置文件(用于 GPU)
-
enumerator DcgmMigProfileGpuInstanceSlice1
GPU 实例切片 1
-
enumerator DcgmMigProfileGpuInstanceSlice2
GPU 实例切片 2
-
enumerator DcgmMigProfileGpuInstanceSlice3
GPU 实例切片 3
-
enumerator DcgmMigProfileGpuInstanceSlice4
GPU 实例切片 4
-
enumerator DcgmMigProfileGpuInstanceSlice7
GPU 实例切片 7
-
enumerator DcgmMigProfileGpuInstanceSlice8
GPU 实例切片 8
-
enumerator DcgmMigProfileGpuInstanceSlice6
GPU 实例切片 6
-
enumerator DcgmMigProfileGpuInstanceSlice1Rev1
GPU 实例切片 1 修订版 1
-
enumerator DcgmMigProfileGpuInstanceSlice2Rev1
GPU 实例切片 2 修订版 1
-
enumerator DcgmMigProfileGpuInstanceSlice1Rev2
GPU 实例切片 1 修订版 2
-
enumerator DcgmMigProfileGpuInstanceSlice1GFX
GPU 实例切片 1 GFX
-
enumerator DcgmMigProfileGpuInstanceSlice2GFX
GPU 实例切片 2 GFX
-
enumerator DcgmMigProfileGpuInstanceSlice4GFX
GPU 实例切片 4 GFX
-
enumerator DcgmMigProfileComputeInstanceSlice1
计算实例切片 1
-
enumerator DcgmMigProfileComputeInstanceSlice2
计算实例切片 2
-
enumerator DcgmMigProfileComputeInstanceSlice3
计算实例切片 3
-
enumerator DcgmMigProfileComputeInstanceSlice4
计算实例切片 4
-
enumerator DcgmMigProfileComputeInstanceSlice7
计算实例切片 7
-
enumerator DcgmMigProfileComputeInstanceSlice8
计算实例切片 8
-
enumerator DcgmMigProfileComputeInstanceSlice6
计算实例切片 6
-
enumerator DcgmMigProfileComputeInstanceSlice1Rev1
计算实例切片 1 修订版 1
-
enumerator DcgmMigProfileNone
-
enum dcgmFBCSessionType_enum
值
-
enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN
未知。
-
enumerator DCGM_FBC_SESSION_TYPE_TOSYS
用于系统缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_CUDA
用于 CUDA 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_VID
用于 Vid 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_HWENC
用于 NVENC HW 缓冲区的 FB 捕获。
-
enumerator DCGM_FBC_SESSION_TYPE_UNKNOWN
-
enum dcgmEncoderQueryType_enum
值
-
enumerator DCGM_ENCODER_QUERY_H264
-
enumerator DCGM_ENCODER_QUERY_HEVC
-
enumerator DCGM_ENCODER_QUERY_H264
-
enum dcgmPowerProfileType_t
值
-
enumerator DCGM_POWER_PROFILE_MAX_P
-
enumerator DCGM_POWER_PROFILE_MAX_Q
-
enumerator DCGM_POWER_PROFILE_COMPUTE
-
enumerator DCGM_POWER_PROFILE_MEMORY_BOUND
-
enumerator DCGM_POWER_PROFILE_NETWORK
-
enumerator DCGM_POWER_PROFILE_BALANCED
-
enumerator DCGM_POWER_PROFILE_LLM_INFERENCE
-
enumerator DCGM_POWER_PROFILE_LLM_TRAINING
-
enumerator DCGM_POWER_PROFILE_RBM
-
enumerator DCGM_POWER_PROFILE_DCPCIE
-
enumerator DCGM_POWER_PROFILE_HMMA_SPARSE
-
enumerator DCGM_POWER_PROFILE_HMMA_DENSE
-
enumerator DCGM_POWER_PROFILE_SYNC_BALANCED
-
enumerator DCGM_POWER_PROFILE_HPC
-
enumerator DCGM_POWER_PROFILE_MIG
-
enumerator DCGM_POWER_PROFILE_MAX
-
enumerator DCGM_POWER_PROFILE_MAX_P
-
enum dcgmPolicyConditionIdx_enum
策略条件的枚举。
当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值
值
-
enumerator DCGM_POLICY_COND_IDX_DBE
双位错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_PCI
PCI 事件/错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_MAX_PAGES_RETIRED
最大退休页数 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_IDX_THERMAL
热违规 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_IDX_POWER
电源违规 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_IDX_NVLINK
NVLINK 错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_IDX_XID
XID 错误 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_IDX_DBE
-
enum dcgmPolicyCondition_enum
策略条件的位掩码枚举。
当用作 dcgmPolicy_t 的一部分时,这些具有相应的参数,允许它们被开启/关闭或设置特定的违反阈值
值
-
enumerator DCGM_POLICY_COND_DBE
双位错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_PCI
PCI 事件/错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_MAX_PAGES_RETIRED
最大退休页数 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_THERMAL
热违规 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_POWER
电源违规 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_NVLINK
NVLINK 错误 — dcgmPolicyConditionParams_t 中的布尔值。
-
enumerator DCGM_POLICY_COND_XID
XID 错误 — dcgmPolicyConditionParams_t 中需要的数字。
-
enumerator DCGM_POLICY_COND_DBE
-
enum dcgmPolicyMode_enum
策略模式的枚举。
值
-
enumerator DCGM_POLICY_MODE_AUTOMATED
自动模式
-
enumerator DCGM_POLICY_MODE_MANUAL
手动模式
-
enumerator DCGM_POLICY_MODE_AUTOMATED
-
enum dcgmPolicyIsolation_enum
策略隔离模式的枚举。
值
-
enumerator DCGM_POLICY_ISOLATION_NONE
错误时不对 GPU 进行隔离
-
enumerator DCGM_POLICY_ISOLATION_NONE
-
enum dcgmPolicyAction_enum
策略动作的枚举。
值
-
enumerator DCGM_POLICY_ACTION_NONE
无操作
-
enumerator DCGM_POLICY_ACTION_GPURESET
已弃用 - 违反时执行 GPU 重置。
-
enumerator DCGM_POLICY_ACTION_NONE
-
enum dcgmPolicyValidation_enum
策略验证动作的枚举。
值
-
enumerator DCGM_POLICY_VALID_NONE
执行操作后不进行验证
-
enumerator DCGM_POLICY_VALID_SV_SHORT
故障后在系统上运行短系统验证
-
enumerator DCGM_POLICY_VALID_SV_MED
故障后运行中等系统验证测试
-
enumerator DCGM_POLICY_VALID_SV_LONG
故障后运行广泛的系统验证测试
-
enumerator DCGM_POLICY_VALID_SV_XLONG
在失败后运行更全面的系统验证测试
-
enumerator DCGM_POLICY_VALID_NONE
-
enum dcgmPolicyFailureResp_enum
策略失败响应的枚举。
值
-
enumerator DCGM_POLICY_FAILURE_NONE
验证失败时不执行任何操作
-
enumerator DCGM_POLICY_FAILURE_NONE
-
enum dcgmHealthSystems_enum
用于启用或禁用健康监控系统的系统结构。
值
-
enumerator DCGM_HEALTH_WATCH_PCIE
PCIe 系统监视 (查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_NVLINK
NVLINK 系统监视。
-
enumerator DCGM_HEALTH_WATCH_PMU
电源管理单元监视。
-
enumerator DCGM_HEALTH_WATCH_MCU
微控制器单元监视。
-
enumerator DCGM_HEALTH_WATCH_MEM
内存监视。
-
enumerator DCGM_HEALTH_WATCH_SM
流式多处理器监视。
-
enumerator DCGM_HEALTH_WATCH_INFOROM
Inforom 监视。
-
enumerator DCGM_HEALTH_WATCH_THERMAL
温度监视 (查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_POWER
功耗监视 (查询前必须有 1 分钟的数据)
-
enumerator DCGM_HEALTH_WATCH_DRIVER
驱动程序相关监视。
-
enumerator DCGM_HEALTH_WATCH_NVSWITCH_NONFATAL
NvSwitch 中的非致命错误。
-
enumerator DCGM_HEALTH_WATCH_NVSWITCH_FATAL
NvSwitch 中的致命错误。
-
enumerator DCGM_HEALTH_WATCH_ALL
启用所有监视。
-
enumerator DCGM_HEALTH_WATCH_PCIE
-
enum dcgmHealthWatchResult_enum
健康监控测试结果。
值
-
enumerator DCGM_HEALTH_RESULT_PASS
此系统中的所有结果均报告正常。
-
enumerator DCGM_HEALTH_RESULT_WARN
已发出警告,请参阅响应以获取更多信息。
-
enumerator DCGM_HEALTH_RESULT_FAIL
已发出故障,请参阅响应以获取更多信息。
-
enumerator DCGM_HEALTH_RESULT_PASS
-
enum dcgmDiagResult_enum
诊断测试结果。
值
-
enumerator DCGM_DIAG_RESULT_PASS
此测试作为诊断通过。
-
enumerator DCGM_DIAG_RESULT_SKIP
此测试被跳过。
-
enumerator DCGM_DIAG_RESULT_WARN
此测试通过,但有警告。
-
enumerator DCGM_DIAG_RESULT_FAIL
此测试诊断失败。
-
enumerator DCGM_DIAG_RESULT_NOT_RUN
此测试未执行。
-
enumerator DCGM_DIAG_RESULT_PASS
-
enum dcgmDiagnosticLevel_t
诊断级别的枚举。
值
-
enumerator DCGM_DIAG_LVL_INVALID
未初始化。
-
enumerator DCGM_DIAG_LVL_SHORT
对系统运行非常基础的健康检查
-
enumerator DCGM_DIAG_LVL_MED
运行中等时长的诊断 (几分钟)
-
enumerator DCGM_DIAG_LVL_LONG
运行扩展诊断 (几分钟)
-
enumerator DCGM_DIAG_LVL_XLONG
运行非常扩展的诊断 (多分钟)
-
enumerator DCGM_DIAG_LVL_INVALID
-
enum dcgmPerGpuTestIndices_enum
每个 GPU 测试的诊断 - dcgmDiagResponsePerGpu_t.results[] 的固定索引。
值
-
enumerator DCGM_MEMORY_INDEX
内存测试索引。
-
enumerator DCGM_DIAGNOSTIC_INDEX
诊断测试索引。
-
enumerator DCGM_PCI_INDEX
PCIe 测试索引。
-
enumerator DCGM_SM_STRESS_INDEX
SM 压力测试索引。
-
enumerator DCGM_TARGETED_STRESS_INDEX
目标压力测试索引。
-
enumerator DCGM_TARGETED_POWER_INDEX
目标功耗测试索引。
-
enumerator DCGM_MEMORY_BANDWIDTH_INDEX
内存带宽测试索引。
-
enumerator DCGM_MEMTEST_INDEX
Memtest 测试索引。
-
enumerator DCGM_PULSE_TEST_INDEX
脉冲测试索引。
-
enumerator DCGM_EUD_TEST_INDEX
EUD 测试索引。
-
enumerator DCGM_NVBANDWIDTH_INDEX
NVBandwidth 索引。
-
enumerator DCGM_UNUSED2_TEST_INDEX
-
enumerator DCGM_UNUSED3_TEST_INDEX
-
enumerator DCGM_UNUSED4_TEST_INDEX
-
enumerator DCGM_UNUSED5_TEST_INDEX
-
enumerator DCGM_SOFTWARE_INDEX
软件测试索引。
-
enumerator DCGM_CONTEXT_CREATE_INDEX
上下文创建测试索引。
-
enumerator DCGM_UNKNOWN_INDEX
未知测试。
-
enumerator DCGM_MEMORY_INDEX
-
enum dcgmSoftwareTest_enum
值
-
enumerator DCGM_SWTEST_DENYLIST
测试驱动程序是否在拒绝列表中 (例如 nouveau)
-
enumerator DCGM_SWTEST_NVML_LIBRARY
测试 NVML 库是否存在 (及其版本)
-
enumerator DCGM_SWTEST_CUDA_MAIN_LIBRARY
测试 CUDA 库是否存在 (及其版本)
-
enumerator DCGM_SWTEST_CUDA_RUNTIME_LIBRARY
测试 CUDA RT 库是否存在 (及其版本)
-
enumerator DCGM_SWTEST_PERMISSIONS
测试字符设备权限
-
enumerator DCGM_SWTEST_PERSISTENCE_MODE
测试是否启用持久模式
-
enumerator DCGM_SWTEST_ENVIRONMENT
测试可能减慢测试速度的 CUDA 环境变量
-
enumerator DCGM_SWTEST_PAGE_RETIREMENT
测试是否有挂起的帧缓冲区页面退休
-
enumerator DCGM_SWTEST_GRAPHICS_PROCESSES
测试是否有图形进程正在运行
-
enumerator DCGM_SWTEST_INFOROM
测试 inforom 是否损坏
-
enumerator DCGM_SWTEST_FABRIC_MANAGER
测试 Fabric Manager 是否正在运行
-
enumerator DCGM_SWTEST_DENYLIST
-
enum dcgmGpuLevel_enum
表示系统中两个 GPU 之间级别关系的级别。枚举值之间留有间隔,以便将来扩展关系。
这些与 nvml.h 中的定义匹配
值
-
enumerator DCGM_TOPOLOGY_UNINITIALIZED
-
enumerator DCGM_TOPOLOGY_BOARD
多 GPU 板
-
enumerator DCGM_TOPOLOGY_SINGLE
所有只需要遍历单个 PCIe 交换机的设备
-
enumerator DCGM_TOPOLOGY_MULTIPLE
所有不需要遍历主机桥的设备
-
enumerator DCGM_TOPOLOGY_HOSTBRIDGE
所有连接到同一主机桥的设备
-
enumerator DCGM_TOPOLOGY_CPU
所有连接到同一 CPU 但可能连接到多个主机桥的设备
-
enumerator DCGM_TOPOLOGY_SYSTEM
系统中的所有设备
-
enumerator DCGM_TOPOLOGY_NVLINK1
通过单个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK2
通过两个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK3
通过三个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK4
通过四个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK5
通过五个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK6
通过六个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK7
通过七个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK8
通过八个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK9
通过九个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK10
通过十个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK11
通过十一个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK12
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK13
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK14
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK15
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK16
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK17
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_NVLINK18
通过十二个 NVLINK 链路连接的 GPU。
-
enumerator DCGM_TOPOLOGY_UNINITIALIZED
-
enum dcgmGpuNVLinkErrorType_enum
标识 DCGM_FI_DEV_GPU_NVLINK_ERRORS 返回的 GPU NVLink 错误类型。
值
-
enumerator DCGM_GPU_NVLINK_ERROR_RECOVERY_REQUIRED
发生 NVLink 链路恢复错误。
-
enumerator DCGM_GPU_NVLINK_ERROR_FATAL
发生 NVLink 链路致命错误。
-
enumerator DCGM_GPU_NVLINK_ERROR_RECOVERY_REQUIRED
-
enum dcgmNvLinkLinkState_enum
NvLink 链路状态。
值
-
enumerator DcgmNvLinkLinkStateNotSupported
此 GPU 不支持 NvLink (GPU 的默认值)
-
enumerator DcgmNvLinkLinkStateDisabled
此链路支持 NvLink,但此链路已禁用 (NvSwitch 的默认值)
-
enumerator DcgmNvLinkLinkStateDown
此 NvLink 链路已断开 (非活动状态)
-
enumerator DcgmNvLinkLinkStateUp
此 NvLink 链路已连接 (活动状态)
-
enumerator DcgmNvLinkLinkStateNotSupported
-
enum dcgmModuleId_t
模块 ID。
值
-
enumerator DcgmModuleIdCore
核心 DCGM - 始终加载。
-
enumerator DcgmModuleIdNvSwitch
NvSwitch 模块。
-
enumerator DcgmModuleIdVGPU
VGPU 模块。
-
enumerator DcgmModuleIdIntrospect
内省模块。
-
enumerator DcgmModuleIdHealth
健康模块。
-
enumerator DcgmModuleIdPolicy
策略模块。
-
enumerator DcgmModuleIdConfig
配置模块。
-
enumerator DcgmModuleIdDiag
GPU 诊断模块。
-
enumerator DcgmModuleIdProfiling
性能分析模块。
-
enumerator DcgmModuleIdSysmon
系统监控模块。
-
enumerator DcgmModuleIdCount
始终是最后一个。比上面的最大值大 1。
-
enumerator DcgmModuleIdCore
-
enum dcgmModuleStatus_t
模块状态。
模块是延迟加载的,因此在被使用之前,它们将处于 DcgmModuleStatusNotLoaded 状态。一旦模块被使用,它们将移动到另一种状态。
值
-
enumerator DcgmModuleStatusNotLoaded
模块尚未加载。
-
enumerator DcgmModuleStatusDenylisted
模块在拒绝列表中;无法加载。
-
enumerator DcgmModuleStatusFailed
加载模块失败。
-
enumerator DcgmModuleStatusLoaded
模块已加载。
-
enumerator DcgmModuleStatusUnloaded
模块已卸载,发生在关闭期间。
-
enumerator DcgmModuleStatusPaused
模块已暂停。这是一个临时状态,一旦模块恢复,将移动到 DcgmModuleStatusLoaded 状态。此状态意味着模块已加载。
-
enumerator DcgmModuleStatusNotLoaded
-
enum dcgmFabricManagerStatus_t
值
-
enumerator DcgmFMStatusNotSupported
此 GPU 不支持 Fabric Manager。
-
enumerator DcgmFMStatusNotStarted
Fabric Manager 尚未在此 GPU 上启动。
-
enumerator DcgmFMStatusInProgress
Fabric Manager 仍在启动中。
-
enumerator DcgmFMStatusSuccess
Fabric Manager 已成功启动。
-
enumerator DcgmFMStatusFailure
Fabric Manager 完成了启动,但失败了。
-
enumerator DcgmFMStatusUnrecognized
NVML 为 Fabric Manager 返回了一个无法识别的状态。
-
enumerator DcgmFMStatusNvmlTooOld
当查询 Fabric Manager 状态时,NVML 返回了 NVML_ERROR_FUNCTION_NOT_FOUND。
-
enumerator DcgmFMStatusCount
有效状态的计数,始终比最后一个状态多 1。
-
enumerator DcgmFMStatusNotSupported
-
struct dcgm_link_s
- #include <dcgm_structs.h>
表示链接对象。
类型应为 DCGM_FE_GPU 或 DCGM_FE_SWITCH 之一; gpuId 或 switchID 是关联的 gpu 或交换机; index 是链接索引,从 0 开始,TX(偶数)在 RX(奇数)之前。
Public Members
-
dcgm_field_entity_group_t type
实体组
-
uint32_t index
链路索引:Tx 在 Rx 之前
-
dcgm_field_eid_t gpuId
物理 GPU ID
-
dcgm_field_eid_t switchId
物理交换机 ID
-
struct dcgm_link_s::[anonymous]::[anonymous] parsed
分解的链路标识符 GPU/SW:[GPU|SW]:索引
-
dcgm_field_eid_t raw
原始链路 ID
-
dcgm_field_entity_group_t type
-
struct dcgmConnectV2Params_v1
- #include <dcgm_structs.h>
dcgmConnect_v2 (v1) 的连接选项
注意:此版本已弃用。请使用 dcgmConnectV2Params_v2
Public Members
-
unsigned int version
版本号。使用 dcgmConnectV2Params_version
-
unsigned int persistAfterDisconnect
是否在连接终止后,持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由连接创建的所有字段监视都会被删除。1 = 不清除此连接后的数据。0 = 清除此连接后的数据
-
unsigned int version
-
struct dcgmConnectV2Params_v2
- #include <dcgm_structs.h>
dcgmConnect_v2 (v2) 的连接选项
Public Members
-
unsigned int version
版本号。使用 dcgmConnectV2Params_version
-
unsigned int persistAfterDisconnect
是否在连接终止后,持久化由此连接修改的 DCGM 状态。通常,一旦连接断开,由连接创建的所有字段监视都会被删除。1 = 不清除此连接后的数据。0 = 清除此连接后的数据
-
unsigned int timeoutMs
当尝试连接到指定的主机引擎时,我们应该等待多长时间(以毫秒为单位)才放弃
-
unsigned int addressIsUnixSocket
传入的地址是 Unix 套接字文件名 (1) 还是 TCP/IP 地址 (0)
-
unsigned int version
-
struct dcgmHostengineHealth_v1
- #include <dcgm_structs.h>
dcgmHostengineHealth_v1 的类型定义。
Public Members
-
unsigned int version
此请求的版本。
-
unsigned int overallHealth
0 表示健康,或使用代码表示错误
-
unsigned int version
-
struct dcgmGroupEntityPair_t
- #include <dcgm_structs.h>
表示 entityGroupId + entityId 对,以唯一标识实体组中给定的 entityId。
在 DCGM 1.5.0 中添加
Public Members
-
dcgm_field_entity_group_t entityGroupId
实体所属的实体组 ID。
-
dcgm_field_eid_t entityId
实体的实体 ID。
-
dcgm_field_entity_group_t entityGroupId
-
struct dcgmGroupInfo_v2
- #include <dcgm_structs.h>
用于存储 DCGM 组信息的结构。
在 DCGM 1.5.0 中添加
Public Members
-
unsigned int version
版本号(使用 dcgmGroupInfo_version2)
-
unsigned int count
在 *entityList* 中返回的 entityId 计数
-
char groupName[256]
组名。
-
dcgmGroupEntityPair_t entityList[64]
此组中实体的列表。
-
unsigned int version
-
struct dcgmGroupInfo_v3
- #include <dcgm_structs.h>
用于存储 DCGM 组信息的结构。
在 DCGM 1.5.0 中添加
Public Members
-
unsigned int version
版本号(使用 dcgmGroupInfo_version3)
-
unsigned int count
在 *entityList* 中返回的 entityId 计数
-
char groupName[256]
组名。
-
dcgmGroupEntityPair_t entityList[1024]
此组中实体的列表。
-
unsigned int version
-
struct dcgmMigHierarchyInfo_t
- #include <dcgm_structs.h>
表示一对实体配对,以唯一标识实体及其在层次结构中的位置。
Public Members
-
dcgmGroupEntityPair_t entity
相关实体的实体 ID 和类型。
-
dcgmGroupEntityPair_t parent
相关实体的父实体的实体 ID 和类型。
-
dcgmMigProfile_t sliceProfile
实体 MIG 配置文件标识符。
-
dcgmGroupEntityPair_t entity
-
struct dcgmMigEntityInfo_t
- #include <dcgm_structs.h>
提供有关 MIG 实体位置的附加信息。
Public Members
-
char gpuUuid[128]
GPU UUID
-
unsigned int nvmlGpuIndex
来自 NVML 的 GPU 索引
-
unsigned int nvmlInstanceId
GPU 内的 GPU 实例索引。0 到 N。GPU 实体为 -1
-
unsigned int nvmlComputeInstanceId
GPU 实例内的 GPU 计算实例索引。0 到 N。GPU 实例和 GPU 实体为 -1
-
unsigned int nvmlMigProfileId
GPU 或计算实例的唯一配置文件 ID。GPU 实体为 -1
See also
nvmlComputeInstanceProfileInfo_st
See also
nvmlGpuInstanceProfileInfo_st
-
unsigned int nvmlProfileSlices
MIG 配置文件中的切片数
-
char gpuUuid[128]
-
struct dcgmMigHierarchyInfo_v2
-
struct dcgmMigHierarchy_v2
-
struct dcgmCpuHierarchyOwnedCores_v1
-
struct dcgmCpuHierarchy_v1
- #include <dcgm_structs.h>
CPU 及其核心的层次结构。
-
struct dcgmCpuHierarchyCpu_v1
-
struct dcgmCpuHierarchyCpu_v1
-
struct dcgmCpuHierarchy_v2
-
struct dcgmCpuHierarchyCpu_v2
-
struct dcgmCpuHierarchyCpu_v2
-
struct dcgmFieldGroupInfo_v1
- #include <dcgm_structs.h>
用于表示字段组信息的结构。
Public Members
-
unsigned int version
版本号 (dcgmFieldGroupInfo_version)
-
unsigned int numFieldIds
fieldIds[] 中有效条目的数量。
-
dcgmFieldGrp_t fieldGroupId
此字段组的 ID。
-
char fieldGroupName[256]
字段组名称。
-
unsigned short fieldIds[128]
属于此组的字段 ID。
-
unsigned int version
-
struct dcgmAllFieldGroup_v1
Public Members
-
unsigned int version
版本号 (dcgmAllFieldGroupInfo_version)
-
unsigned int numFieldGroups
fieldGroups[] 中已填充条目的数量。
-
dcgmFieldGroupInfo_t fieldGroups[64]
有关每个字段组的信息。
-
unsigned int version
-
struct dcgmErrorInfo_t
- #include <dcgm_structs.h>
用于表示错误属性的结构。
Public Members
-
unsigned int gpuId
表示 GPU ID。
-
short fieldId
DCGM_FI_? 之一。
-
int status
DCGM_ST_? 之一。
-
unsigned int gpuId
-
struct dcgmClockSet_v1
- #include <dcgm_structs.h>
表示设备的内存、SM 和视频时钟的集合。
这可以是当前值,也可以是基于上下文的目标值
Public Members
-
int version
版本号 (dcgmClockSet_version)
-
unsigned int memClock
内存时钟(内存时钟值或 DCGM_INT32_BLANK,用于忽略/使用与 smClk 兼容的值)
-
unsigned int smClock
SM 时钟(SM 时钟值或 DCGM_INT32_BLANK,用于忽略/使用与 memClk 兼容的值)
-
int version
-
struct dcgmDeviceSupportedClockSets_v1
- #include <dcgm_structs.h>
表示设备支持的时钟集列表。
Public Members
-
unsigned int version
版本号 (dcgmDeviceSupportedClockSets_version)
-
unsigned int count
支持的时钟数。
-
dcgmClockSet_t clockSet[256]
设备的有效时钟集。最多填充 count 个条目。
-
unsigned int version
-
struct dcgmDevicePidAccountingStats_v1
- #include <dcgm_structs.h>
表示一个进程的核算数据。
Public Members
-
unsigned int version
版本号。应与 dcgmDevicePidAccountingStats_version 匹配。
-
unsigned int pid
此统计信息所属的进程的进程 ID。
-
unsigned int gpuUtilization
进程生命周期内,在一个或多个内核在 GPU 上执行期间所占时间的百分比。
如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED
-
unsigned int memoryUtilization
进程生命周期内,全局(设备)内存被读取或写入期间所占时间的百分比。
如果不支持,则设置为 DCGM_INT32_NOT_SUPPORTED
-
unsigned long long maxMemoryUsage
进程已分配的最大总内存(以字节为单位)。
如果不支持,则设置为 DCGM_INT64_NOT_SUPPORTED
-
unsigned long long startTimestamp
以微秒为单位的 CPU 时间戳,表示进程的开始时间。
-
unsigned long long activeTimeUsec
计算上下文处于活动状态的时间量(以微秒为单位)。
请注意,这并不意味着上下文正在被使用。endTimestamp 可以计算为 startTimestamp + activeTime
-
unsigned int version
-
struct dcgmDeviceThermals_v1
- #include <dcgm_structs.h>
表示热信息。
Public Members
-
unsigned int version
版本号。
-
unsigned int slowdownTemp
降速温度。
-
unsigned int shutdownTemp
关机温度。
-
unsigned int version
-
struct dcgmDevicePowerLimits_v1
- #include <dcgm_structs.h>
表示各种功耗限制。
Public Members
-
unsigned int version
版本号。
-
unsigned int curPowerLimit
与此设备关联的功耗管理限制(单位:W)
-
unsigned int defaultPowerLimit
设备启动时生效的功耗管理限制(单位:W)
-
unsigned int enforcedPowerLimit
驱动程序在考虑所有限制器后强制执行的有效功耗限制(单位:W)
-
unsigned int minPowerLimit
最小功耗管理限制(单位:W)
-
unsigned int maxPowerLimit
最大功耗管理限制(单位:W)
-
unsigned int version
-
struct dcgmDeviceIdentifiers_v1
- #include <dcgm_structs.h>
表示设备标识符。
Public Members
-
unsigned int version
版本号 (dcgmDeviceIdentifiers_version)
-
char brandName[256]
品牌名称。
-
char deviceName[256]
设备名称。
-
char pciBusId[256]
PCI 总线 ID。
-
char serial[256]
设备的序列号。
-
char uuid[256]
设备的 UUID。
-
char vbios[256]
VBIOS 版本。
-
char inforomImageVersion[256]
Inforom 镜像版本。
-
unsigned int pciDeviceId
组合的 16 位设备 ID 和 16 位供应商 ID。
-
unsigned int pciSubSystemId
32 位子系统设备 ID。
-
char driverVersion[256]
驱动程序版本。
-
unsigned int virtualizationMode
虚拟化模式。
-
unsigned int version
-
struct dcgmDeviceMemoryUsage_v1
- #include <dcgm_structs.h>
表示设备内存和使用情况。
Public Members
-
unsigned int version
版本号 (dcgmDeviceMemoryUsage_version)
-
unsigned int bar1Total
BAR1 总大小(以兆字节为单位)。
-
unsigned int fbTotal
帧缓冲区总内存(以兆字节为单位)。
-
unsigned int fbUsed
已用帧缓冲区内存(以兆字节为单位)。
-
unsigned int fbFree
可用帧缓冲区内存(以兆字节为单位)。
-
unsigned int version
-
struct dcgmDeviceVgpuUtilInfo_v1
- #include <dcgm_structs.h>
表示设备上运行的 vGPU 的利用率值。
Public Members
-
unsigned int version
版本号 (dcgmDeviceVgpuUtilInfo_version)
-
unsigned int vgpuId
vGPU 实例 ID
-
unsigned int smUtil
vGPU 的 GPU 利用率。
-
unsigned int memUtil
vGPU 的内存利用率。
-
unsigned int encUtil
vGPU 的编码器利用率。
-
unsigned int decUtil
vGPU 的解码器利用率。
-
unsigned int version
-
struct dcgmDeviceEncStats_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例的当前编码器统计信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceEncStats_version)
-
unsigned int sessionCount
活动编码器会话计数。
-
unsigned int averageFps
所有活动会话的尾随平均 FPS。
-
unsigned int averageLatency
编码延迟(以毫秒为单位)。
-
unsigned int version
-
struct dcgmDeviceFbcStats_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例的当前帧缓冲区捕获会话统计信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceFbcStats_version)
-
unsigned int sessionCount
活动 FBC 会话计数。
-
unsigned int averageFps
每秒捕获的新帧的移动平均值。
-
unsigned int averageLatency
新帧捕获延迟的移动平均值(以微秒为单位)。
-
unsigned int version
-
struct dcgmDeviceFbcSessionInfo_v1
- #include <dcgm_structs.h>
表示有关给定设备/vGPU 实例上活动 FBC 会话的信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceFbcSessionInfo_version)
-
unsigned int sessionId
唯一会话 ID。
-
unsigned int pid
所有者进程 ID。
-
unsigned int vgpuId
vGPU 实例 ID(仅在 vGPU 主机上有效,否则为零)
-
unsigned int displayOrdinal
显示标识符。
-
dcgmFBCSessionType_t sessionType
帧缓冲区捕获会话的类型。
-
unsigned int sessionFlags
会话标志。
-
unsigned int hMaxResolution
捕获会话支持的最大水平分辨率。
-
unsigned int vMaxResolution
捕获会话支持的最大垂直分辨率。
-
unsigned int hResolution
调用者在捕获调用中请求的水平分辨率。
-
unsigned int vResolution
调用者在捕获调用中请求的垂直分辨率。
-
unsigned int averageFps
每秒捕获的新帧的移动平均值。
-
unsigned int averageLatency
新帧捕获延迟的移动平均值(以微秒为单位)。
-
unsigned int version
-
struct dcgmDeviceFbcSessions_v1
- #include <dcgm_structs.h>
表示给定设备/vGPU 实例上的所有活动 FBC 会话。
Public Members
-
unsigned int version
版本号 (dcgmDeviceFbcSessions_version)
-
unsigned int sessionCount
活动 FBC 会话计数。
-
dcgmDeviceFbcSessionInfo_t sessionInfo[256]
有关活动 FBC 会话的信息。
-
unsigned int version
-
struct dcgmDeviceVgpuEncSessions_v1
- #include <dcgm_structs.h>
表示有关给定 vGPU 实例上活动编码器会话的信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceVgpuEncSessions_version)
-
unsigned int vgpuId
vGPU 实例 ID
-
unsigned int sessionId
唯一会话 ID。
-
unsigned int pid
进程 ID。
-
dcgmEncoderType_t codecType
视频编码器类型。
-
unsigned int hResolution
当前编码水平分辨率。
-
unsigned int vResolution
当前编码垂直分辨率。
-
unsigned int averageFps
移动平均编码帧率 (每秒帧数)。
-
unsigned int averageLatency
移动平均编码延迟 (毫秒)。
-
unsigned int version
-
struct dcgmDeviceVgpuProcessUtilInfo_v1
- #include <dcgm_structs.h>
表示使用该设备的 vGPU VM 中运行的进程的利用率值。
Public Members
-
unsigned int version
版本号 (dcgmDeviceVgpuProcessUtilInfo_version)
-
unsigned int vgpuId
vGPU 实例 ID
-
unsigned int vgpuProcessSamplesCount
vGPU VM 中运行的进程计数,这些进程的利用率在本周期中报告。
-
unsigned int pid
vGPU VM 中运行的进程的进程 ID。
-
char processName[64]
vGPU VM 中运行的进程的进程名称。
-
unsigned int smUtil
vGPU VM 中运行的进程的 GPU 利用率。
-
unsigned int memUtil
vGPU VM 中运行的进程的内存利用率。
-
unsigned int encUtil
vGPU VM 中运行的进程的编码器利用率。
-
unsigned int decUtil
vGPU VM 中运行的进程的解码器利用率。
-
unsigned int version
-
struct dcgmDeviceVgpuTypeInfo_v1
- #include <dcgm_structs.h>
表示设备上支持的 vGPU 的静态信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceVgpuTypeInfo_version)
-
union dcgmDeviceVgpuTypeInfo_v1::[anonymous] vgpuTypeInfo
vGPU 类型 ID 和支持的 vGPU 类型计数
-
char vgpuTypeName[64]
vGPU 类型名称
-
char vgpuTypeClass[64]
vGPU 类型的类别。
-
char vgpuTypeLicense[128]
vGPU 类型的许可证
-
int deviceId
vGPU 类型的设备 ID
-
int subsystemId
vGPU 类型的子系统 ID。
-
int numDisplayHeads
vGPU 支持的显示头数量。
-
int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
int frameRateLimit
vGPU 类型的帧率限制值。
-
int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
int fbTotal
vGPU 总帧缓冲区大小 (MB)
-
unsigned int version
-
struct dcgmDeviceVgpuTypeInfo_v2
Public Members
-
unsigned int version
版本号 (dcgmDeviceVgpuTypeInfo_version2)
-
union dcgmDeviceVgpuTypeInfo_v2::[anonymous] vgpuTypeInfo
vGPU 类型 ID 和支持的 vGPU 类型计数
-
char vgpuTypeName[64]
vGPU 类型名称
-
char vgpuTypeClass[64]
vGPU 类型的类别。
-
char vgpuTypeLicense[128]
vGPU 类型的许可证
-
int deviceId
vGPU 类型的设备 ID
-
int subsystemId
vGPU 类型的子系统 ID。
-
int numDisplayHeads
vGPU 支持的显示头数量。
-
int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
int frameRateLimit
vGPU 类型的帧率限制值。
-
int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
int fbTotal
vGPU 总帧缓冲区大小 (MB)
-
int gpuInstanceProfileId
给定 vGPU 类型的 GPU 实例配置文件 ID。
-
unsigned int version
-
struct dcgmDeviceSupportedVgpuTypeInfo_v1
- #include <dcgm_structs.h>
表示设备上支持的 vGPU 的相关信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceSupportedVgpuTypeInfo_version)
-
unsigned long long deviceId
vGPU 类型的设备 ID
-
unsigned long long subsystemId
vGPU 类型的子系统 ID。
-
unsigned int numDisplayHeads
vGPU 支持的显示头数量。
-
unsigned int maxInstances
给定 vGPU 类型在设备上可创建的最大 vGPU 实例数
-
unsigned int frameRateLimit
vGPU 类型的帧率限制值。
-
unsigned int maxResolutionX
vGPU 显示头的 X 维度最大支持分辨率
-
unsigned int maxResolutionY
vGPU 显示头的 Y 维度最大支持分辨率
-
unsigned long long fbTotal
vGPU 总帧缓冲区大小 (MB)
-
unsigned int gpuInstanceProfileId
给定 vGPU 类型的 GPU 实例配置文件 ID。
-
unsigned int version
-
struct dcgmDeviceSettings_v2
-
struct dcgmDeviceAttributes_v3
Public Members
-
unsigned int version
版本号 (dcgmDeviceAttributes_version)
-
dcgmDeviceSupportedClockSets_t clockSets
设备支持的时钟频率。
-
dcgmDeviceThermals_t thermalSettings
设备的热设置。
-
dcgmDevicePowerLimits_t powerLimits
设备的各种功率限制。
-
dcgmDeviceIdentifiers_t identifiers
设备的标识符。
-
dcgmDeviceMemoryUsage_t memoryUsage
设备的内存使用信息。
-
dcgmDeviceSettings_v2 settings
基本设备设置。
-
unsigned int version
-
struct dcgmDeviceMigAttributesInfo_v1
- #include <dcgm_structs.h>
表示 MIG 设备的属性信息的结构体。
Public Members
-
unsigned int version
版本号 (dcgmDeviceMigAttributesInfo_version)
-
unsigned int gpuInstanceId
GPU 实例 ID。
-
unsigned int computeInstanceId
计算实例 ID。
-
unsigned int multiprocessorCount
流式多处理器计数。
共享复制引擎计数。
共享解码器引擎计数。
共享编码器引擎计数。
共享 JPEG 引擎计数。
共享 OFA 引擎计数。
-
unsigned int gpuInstanceSliceCount
GPU 实例切片计数。
-
unsigned int computeInstanceSliceCount
计算实例切片计数。
-
unsigned long long memorySizeMB
设备内存大小 (MiB)
-
unsigned int version
-
struct dcgmDeviceMigAttributes_v1
- #include <dcgm_structs.h>
表示 MIG 设备的属性的结构体。
Public Members
-
unsigned int version
版本号 (dcgmDeviceMigAttributes_version)
-
unsigned int migDevicesCount
MIG 设备计数。
-
dcgmDeviceMigAttributesInfo_v1 migAttributesInfo
MIG 属性信息。
-
unsigned int version
-
struct dcgmGpuInstanceProfileInfo_v1
- #include <dcgm_structs.h>
表示 GPU 实例配置文件信息的结构体。
Public Members
-
unsigned int version
版本号 (dcgmGpuInstanceProfileInfo_version)
-
unsigned int id
设备内唯一的配置文件 ID。
-
unsigned int isP2pSupported
对等互连支持。
-
unsigned int sliceCount
GPU Slice 计数。
-
unsigned int instanceCount
GPU 实例计数。
-
unsigned int multiprocessorCount
流式多处理器计数。
-
unsigned int copyEngineCount
复制引擎计数。
-
unsigned int decoderCount
解码器引擎计数。
-
unsigned int encoderCount
编码器引擎计数。
-
unsigned int jpegCount
JPEG 引擎计数。
-
unsigned int ofaCount
OFA 引擎计数。
-
unsigned long long memorySizeMB
内存大小,单位为 MB。
-
unsigned int version
-
struct dcgmGpuInstanceProfiles_v1
- #include <dcgm_structs.h>
用于表示 GPU 实例配置文件的结构体。
Public Members
-
unsigned int version
版本号 (dcgmGpuInstanceProfiles_version)
-
unsigned int profileCount
配置文件计数。
-
dcgmGpuInstanceProfileInfo_v1 profileInfo
GPU 实例配置文件信息。
-
unsigned int version
-
struct dcgmComputeInstanceProfileInfo_v1
- #include <dcgm_structs.h>
用于表示计算实例配置文件信息的结构体。
Public Members
-
unsigned int version
版本号 (dcgmComputeInstanceProfileInfo_version)
-
unsigned int gpuInstanceId
GPU 实例 ID。
-
unsigned int id
GPU 实例内的唯一配置文件 ID。
-
unsigned int sliceCount
GPU Slice 计数。
-
unsigned int instanceCount
计算实例计数。
-
unsigned int multiprocessorCount
流式多处理器计数。
共享复制引擎计数。
共享解码器引擎计数。
共享编码器引擎计数。
共享 JPEG 引擎计数。
共享 OFA 引擎计数。
-
unsigned int version
-
struct dcgmComputeInstanceProfiles_v1
- #include <dcgm_structs.h>
用于表示计算实例配置文件的结构体。
Public Members
-
unsigned int version
版本号 (dcgmComputeInstanceProfiles_version)
-
unsigned int profileCount
配置文件计数。
-
dcgmComputeInstanceProfileInfo_v1 profileInfo
计算实例配置文件信息。
-
unsigned int version
-
struct dcgmWorkloadPowerProfileInfo_v1
Public Members
-
unsigned int version
API 版本号
-
unsigned int version
-
struct dcgmWorkloadPowerProfileProfilesInfo_v1
Public Members
-
unsigned int version
API 版本号
-
dcgmWorkloadPowerProfileInfo_v1 workloadPowerProfile[(255)]
工作负载功耗配置文件信息参数数组。
-
unsigned int version
-
struct dcgmDeviceWorkloadPowerProfilesStatus_v1
- #include <dcgm_structs.h>
设备工作负载配置文件信息。
Public Members
-
unsigned int version
API 版本号
-
unsigned int profileMask[8]
有效工作负载功耗配置文件的位掩码。
-
unsigned int version
-
struct dcgmConfigPerfStateSettings_t
- #include <dcgm_structs.h>
用于表示性能状态设置。
Public Members
-
unsigned int syncBoost
同步加速模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)。
请注意,使用此设置可能会导致时钟频率低于 targetClocks
-
dcgmClockSet_t targetClocks
目标时钟频率。
将 smClock 和 memClock 设置为 DCGM_INT32_BLANK 以忽略/使用兼容值。对于 Maxwell 及更高版本的 GPU,设置此项意味着 autoBoost=0
-
unsigned int syncBoost
-
struct dcgmConfigPowerLimit_t
- #include <dcgm_structs.h>
用于表示组中每个 GPU 的功率上限或表示整个组的功率预算。
Public Members
-
dcgmConfigPowerLimitType_t type
标志,用于表示每个 GPU 的功率上限或 GPU 组的功率预算。
-
unsigned int val
功率限制,单位为瓦特(设置值或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPowerLimitType_t type
-
struct dcgmConfig_v1
- #include <dcgm_structs.h>
用于表示设备的默认配置和目标配置的结构体。
Public Members
-
unsigned int version
版本号 (dcgmConfig_version)
-
unsigned int gpuId
GPU ID。
-
unsigned int eccMode
ECC 模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)
-
unsigned int computeMode
计算模式(DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPerfStateSettings_t perfState
性能状态设置(时钟频率/加速模式)
-
dcgmConfigPowerLimit_t powerLimit
功率限制。
-
unsigned int version
-
struct dcgmConfig_v2
Public Members
-
unsigned int version
版本号 (dcgmConfig_version)
-
unsigned int gpuId
GPU ID。
-
unsigned int eccMode
ECC 模式(0:禁用,1:启用,DCGM_INT32_BLANK:忽略)
-
unsigned int computeMode
计算模式(DCGM_CONFIG_COMPUTEMODE_? 之一或 DCGM_INT32_BLANK 以忽略)
-
dcgmConfigPerfStateSettings_t perfState
性能状态设置(时钟频率/加速模式)
-
dcgmConfigPowerLimit_t powerLimit
功率限制。
-
unsigned int version
-
struct dcgmPolicyViolation_v1
Public Members
-
unsigned int version
版本号 (dcgmPolicyViolation_version)
-
unsigned int notifyOnEccDbe
关于 ECC 双位错误的 true/false 通知
-
unsigned int notifyOnPciEvent
关于 PCI 事件的 true/false 通知
-
unsigned int notifyOnMaxRetiredPages
发生多少个已停用页面后进行通知
-
unsigned int version
-
struct dcgmPolicyConditionParams_st
- #include <dcgm_structs.h>
策略条件参数的结构体。
此结构体包含一个标签,表示作为参数传递的值的类型,以及一个 “val”,它是可能的值类型的联合。例如,要传递一个 true 布尔值:tag = BOOL,val.boolean = 1。
-
struct dcgmPolicyViolationNotify_t
- #include <dcgm_structs.h>
当用户查询策略违规时填充的结构体。
Public Members
-
unsigned int gpuId
GPU ID
-
unsigned int violationOccurred
基于 dcgmPolicyCondition_t 中的位值的违规
-
unsigned int gpuId
-
struct dcgmPolicy_v1
- #include <dcgm_structs.h>
定义指定要为 GPU 强制执行的策略的结构体。
Public Members
-
unsigned int version
版本号 (dcgmPolicy_version)
-
dcgmPolicyCondition_t condition
要访问 dcgmPolicyCondition_t 的条件。
-
dcgmPolicyMode_t mode
操作模式 dcgmPolicyMode_t。
-
dcgmPolicyIsolation_t isolation
策略违规后的隔离级别 dcgmPolicyIsolation_t。
-
dcgmPolicyAction_t action
策略违规后要执行的操作 dcgmPolicyAction_t action。
-
dcgmPolicyValidation_t validation
采取操作后要执行的验证 dcgmPolicyValidation_t。
-
dcgmPolicyFailureResp_t response
验证失败响应 dcgmPolicyFailureResp_t。
-
dcgmPolicyConditionParams_t parms[7]
condition 字段的参数。
-
unsigned int version
-
struct dcgmPolicyConditionDbe_t
- #include <dcgm_structs.h>
定义 ECC DBE 返回结构体。
Public Members
-
long long timestamp
错误的 时间戳
-
enum dcgmPolicyConditionDbe_t::[anonymous] location
错误的位置
-
unsigned int numerrors
错误数量
-
long long timestamp
-
struct dcgmPolicyConditionPci_t
- #include <dcgm_structs.h>
定义 PCI 重放错误返回结构体。
Public Members
-
long long timestamp
错误的 时间戳
-
unsigned int counter
PCIe 重放计数器的值
-
long long timestamp
-
struct dcgmPolicyConditionMpr_t
- #include <dcgm_structs.h>
定义最大挂起的已停用页面限制返回结构。
Public Members
-
long long timestamp
错误的 时间戳
-
unsigned int sbepages
由于 SBE 导致的挂起页面数
-
unsigned int dbepages
由于 DBE 导致的挂起页面数
-
long long timestamp
-
struct dcgmPolicyConditionThermal_t
- #include <dcgm_structs.h>
定义热策略违规返回结构。
Public Members
-
long long timestamp
错误的 时间戳
-
unsigned int thermalViolation
达到的温度违反了策略。
-
long long timestamp
-
struct dcgmPolicyConditionPower_t
- #include <dcgm_structs.h>
定义电源策略违规返回结构。
Public Members
-
long long timestamp
错误的 时间戳
-
unsigned int powerViolation
达到的电源值违反了策略。
-
long long timestamp
-
struct dcgmPolicyConditionNvlink_t
- #include <dcgm_structs.h>
定义 nvlink 策略违规返回结构。
Public Members
-
long long timestamp
错误的 时间戳
-
unsigned short fieldId
违反策略的 Nvlink 计数器字段 ID。
-
unsigned int counter
违反策略的 Nvlink 计数值。
-
long long timestamp
-
struct dcgmPolicyConditionXID_t
- #include <dcgm_structs.h>
定义 xid 策略违规返回结构。
Public Members
-
long long timestamp
错误的 时间戳。
-
unsigned int errnum
XID 错误号。
-
long long timestamp
-
struct dcgmPolicyCallbackResponse_v2
- #include <dcgm_structs.h>
定义传递给回调函数的结构。
Public Members
-
unsigned int version
版本号 (dcgmPolicyCallbackResponse_version)
-
dcgmPolicyCondition_t condition
违反的条件。
-
dcgmPolicyConditionDbe_t dbe
ECC DBE 返回结构。
-
dcgmPolicyConditionPci_t pci
PCI 重放错误返回结构。
-
dcgmPolicyConditionMpr_t mpr
最大停用页面限制返回结构。
-
dcgmPolicyConditionThermal_t thermal
热策略违规返回结构。
-
dcgmPolicyConditionPower_t power
电源策略违规返回结构。
-
dcgmPolicyConditionNvlink_t nvlink
Nvlink 策略违规返回结构。
-
dcgmPolicyConditionXID_t xid
XID 策略违规返回结构。
-
unsigned int gpuId
违反策略的 GPU 的 GPU ID。
-
unsigned int version
-
struct dcgmFieldValue_v1
- #include <dcgm_structs.h>
此结构用于表示要查询的字段的值。
Public Members
-
unsigned int version
版本号 (dcgmFieldValue_version1)
-
unsigned short fieldId
DCGM_FI_? 之一。
-
unsigned short fieldType
DCGM_FT_? 之一
-
int status
查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一
-
int64_t ts
自 1970 年以来的时间戳,单位为微秒。
-
int64_t i64
Int64 值。
-
double dbl
Double 值。
-
char str[256]
NULL 结尾的字符串。
-
char blob[4096]
二进制 blob。
-
union dcgmFieldValue_v1::[anonymous] value
值。
-
unsigned int version
-
struct dcgmFieldValue_v2
- #include <dcgm_structs.h>
此结构用于表示要查询的字段的值。
Public Members
-
unsigned int version
版本号 (dcgmFieldValue_version2)
-
dcgm_field_entity_group_t entityGroupId
此字段值的实体所属的实体组。
-
dcgm_field_eid_t entityId
此字段值所属的实体。
-
unsigned short fieldId
DCGM_FI_? 之一。
-
unsigned short fieldType
DCGM_FT_? 之一
-
int status
查询字段的状态。DCGM_ST_OK 或 DCGM_ST_? 之一
-
unsigned int unused
目前未使用,用于将 ts 对齐到 8 字节边界。
-
int64_t ts
自 1970 年以来的时间戳,单位为微秒。
-
int64_t i64
Int64 值。
-
double dbl
Double 值。
-
char str[256]
NULL 结尾的字符串。
-
char blob[4096]
二进制 blob。
-
union dcgmFieldValue_v2::[anonymous] value
值。
-
unsigned int version
-
struct dcgmStatSummaryInt64_t
- #include <dcgm_structs.h>
int64 格式的时间序列数据摘要。
每个值将被设置或为空白值。使用 DCGM_INT64_IS_BLANK() 宏检查空白。
See also
有关空白值的实际值,请参见 dcgmvalue.h
Public Members
-
long long minValue
所查看样本的最小值。
-
long long maxValue
所查看样本的最大值。
-
long long average
所查看样本的简单平均值。此计算将忽略空白值。
-
long long minValue
-
struct dcgmStatSummaryInt32_t
- #include <dcgm_structs.h>
与 dcgmStatSummaryInt64_t 相同,但使用 32 位整数值。
Public Members
-
int minValue
所查看样本的最小值。
-
int maxValue
所查看样本的最大值。
-
int average
所查看样本的简单平均值。此计算将忽略空白值。
-
int minValue
-
struct dcgmStatSummaryFp64_t
- #include <dcgm_structs.h>
双精度格式的时间序列数据摘要。
每个值将被设置或为空白值。使用 DCGM_FP64_IS_BLANK() 宏检查空白。
See also
有关空白值的实际值,请参见 dcgmvalue.h
Public Members
-
double minValue
所查看样本的最小值。
-
double maxValue
所查看样本的最大值。
-
double average
所查看样本的简单平均值。此计算将忽略空白值。
-
double minValue
-
struct dcgmDiagErrorDetail_t
-
struct dcgmDiagErrorDetail_v2
- #include <dcgm_structs.h>
错误详情。
自 DCGM 3.3 起
Public Members
-
unsigned int category
参见 dcgmErrorCategory_t。
-
unsigned int severity
参见 dcgmErrorSeverity_t。
-
unsigned int category
-
struct dcgmDiagInfo_v1
- #include <dcgm_structs.h>
诊断插件按实体的信息结果 v1。
自 DCGM 4.0 起
Public Members
-
dcgmGroupEntityPair_t entity
与信息关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。
-
char msg[512]
与插件报告的错误关联的任何消息。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagError_v1
- #include <dcgm_structs.h>
诊断插件按实体的错误结果 v1。
自 DCGM 4.0 起
Public Members
-
dcgmGroupEntityPair_t entity
与错误关联的实体。对于全局范围,请使用组 DCGM_FE_NONE。
-
unsigned int code
正在报告的错误代码。
-
unsigned int category
报告错误的类别。 请参阅 dcgm_errors.h 中的 dcgmErrorCategory_t。
-
unsigned int severity
报告错误的严重程度。 请参阅 dcgm_errors.h 中的 dcgmErrorSeverity_t。
-
char msg[512]
与插件报告的错误关联的任何消息。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagEntityResult_v1
- #include <dcgm_structs.h>
诊断插件按实体的错误结果 v1。
自 DCGM 4.0 起。另请参阅 PluginInterface.h: dcgmDiagEntityResults_v1。
Public Members
-
dcgmGroupEntityPair_t entity
与结果关联的实体。 对于全局范围,请使用组 DCGM_FE_NONE。
-
dcgmDiagResult_t result
此实体的结果。
-
unsigned int testId
报告错误的测试的索引。
-
dcgmGroupEntityPair_t entity
-
struct dcgmDiagTestAuxData_v1
- #include <dcgm_structs.h>
每个测试辅助数据结构 v1。
自 DCGM 4.0 起
Public Members
-
unsigned int version
版本号 (dcgmDiagTestAuxData_version1)
-
unsigned int version
-
struct dcgmDiagTestRun_v1
- #include <dcgm_structs.h>
有关每次测试运行的信息。
自 DCGM 4.0 起
Public Members
-
char name[32]
测试的名称。
-
char pluginName[32]
此测试所属的插件名称。
-
dcgmDiagResult_t result
插件的总体结果(PASS、FAIL、SKIP、WARN、NOT_RUN)。
-
unsigned char numErrors
错误数,在 PASS 时始终为 0。
-
unsigned char numInfo
信息消息的数量。
-
unsigned char categoryIndex
DiagResponse.categories 的索引。
-
unsigned char _unused
填充字节
-
unsigned short numResults
实体结果的数量。
-
unsigned char errorIndices[32]
此运行的每个实体错误索引。
-
unsigned char infoIndices[16]
此运行的每个实体信息索引。
-
unsigned short resultIndices[1024]
此运行的每个实体结果索引。
-
char name[32]
-
struct dcgmDiagEntity_v1
- #include <dcgm_structs.h>
以实体为中心的诊断运行的附加实体详细信息。
自 DCGM 4.0 起。
Public Members
-
dcgmGroupEntityPair_t entity
实体组和实体 ID。
-
char serialNum[256]
序列号(字符串;仅限 GPU?)。
-
char skuDeviceId[5]
PCI 设备 ID(字符串;仅限 GPU?)。
-
dcgmGroupEntityPair_t entity
-
struct dcgmIncidentInfo_t
Public Members
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此事件的健康状况诊断
-
dcgmDiagErrorDetail_t error
有关错误及其错误代码的信息。
-
dcgmGroupEntityPair_t entityInfo
标识哪个实体发生此错误
-
dcgmHealthSystems_t system
-
struct dcgmHealthResponse_v5
- #include <dcgm_structs.h>
健康状况响应结构版本 4 - 仅列出事件,而不是按实体报告。
自 DCGM 2.0 起
Public Members
-
unsigned int version
此结构的版本号。
-
dcgmHealthWatchResults_t overallHealth
整个主机的总体健康状况。
-
unsigned int incidentCount
此结构中报告的健康事件数。
-
dcgmIncidentInfo_t incidents[1024]
检测到的错误报告。
-
unsigned int version
-
struct dcgmHealthSetParams_v2
- #include <dcgm_structs.h>
用于通过 dcgmHealthSet_v2 API 设置健康监视的结构。
Public Members
-
unsigned int version
此结构的版本。应为 dcgmHealthSet_version2
-
dcgmGpuGrp_t groupId
表示一个或多个实体集合的组 ID。 有关创建组的详细信息,请查看 dcgmGroupCreate。 或者,传入组 ID 作为 *DCGM_GROUP_ALL_GPUS* 以对所有 GPU 执行操作,或 *DCGM_GROUP_ALL_NVSWITCHES* 以对所有 NvSwitches 执行操作。
-
dcgmHealthSystems_t systems
一个枚举,表示应为健康检查启用的系统,这些系统在逻辑上是 OR 运算的结果。 有关详细信息,请参阅 dcgmHealthSystems_t。
-
long long updateInterval
以微秒为单位,从 NVIDIA 驱动程序查询底层健康信息的频率。 这应与您调用 dcgmHealthCheck 的频率相同
-
double maxKeepAge
数据在此字段中缓存的最长时间(以秒为单位)。 这应至少是您调用 dcgmHealthCheck 之间的最大时间
-
unsigned int version
-
struct dcgmProcessUtilInfo_t
- #include <dcgm_structs.h>
每个进程的利用率
-
struct dcgmProcessUtilSample_t
- #include <dcgm_structs.h>
用于获取 PID 和相应利用率的内部结构。
-
struct dcgmPidSingleInfo_t
- #include <dcgm_structs.h>
与单个 PID 对应的信息。
Public Members
-
unsigned int gpuId
此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。
-
long long energyConsumed
GPU 消耗的能量,单位为毫瓦/秒。
-
dcgmStatSummaryInt64_t pcieRxBandwidth
从 GPU 读取的 PCI-E 字节数。
-
dcgmStatSummaryInt64_t pcieTxBandwidth
写入 GPU 的 PCI-E 字节数。
-
long long pcieReplays
发生的 PCI-E 重放计数。
-
long long startTime
自 1970 年以来的进程启动时间,以微秒为单位。
-
long long endTime
自 1970 年以来的进程结束时间,以微秒为单位;如果进程未完成,则报告为 0。
-
dcgmProcessUtilInfo_t processUtilization
进程 SM 和内存利用率(以百分比表示)
-
dcgmStatSummaryInt32_t smUtilization
GPU SM 利用率,以百分比表示。
-
dcgmStatSummaryInt32_t memoryUtilization
GPU 内存利用率,以百分比表示。
-
unsigned int eccSingleBit
已弃用 - 发生的 ECC 单比特错误计数。
-
unsigned int eccDoubleBit
发生的 ECC 双比特错误计数。
-
dcgmStatSummaryInt32_t memoryClock
内存时钟频率,单位为 MHz。
-
dcgmStatSummaryInt32_t smClock
SM 时钟频率,单位为 MHz。
-
int numXidCriticalErrors
xidCriticalErrorsTs 中的有效条目数。
-
long long xidCriticalErrorsTs[10]
发生的严重 XID 错误的时间戳。
-
int numOtherComputePids
otherComputePids 条目中有效的计数。
-
unsigned int otherComputePids[16]
运行的其他计算进程。 0=无进程。
-
int numOtherGraphicsPids
otherGraphicsPids 条目中有效的计数。
-
unsigned int otherGraphicsPids[16]
运行的其他图形进程。 0=无进程。
-
long long maxGpuMemoryUsed
使用的最大 GPU 内存量,以字节为单位。
-
long long powerViolationTime
由于电源违规而处于降频状态的微秒数。
-
long long thermalViolationTime
由于热违规而处于降频状态的微秒数。
-
long long reliabilityViolationTime
由于可靠性限制而处于降频状态的微秒数。
-
long long boardLimitViolationTime
由于达到板卡最大电压而处于降频状态的微秒数。
-
long long lowUtilizationTime
由于低利用率而处于降频状态的微秒数。
-
long long syncBoostTime
由于同步加速而处于降频状态的微秒数。
-
dcgmHealthWatchResults_t overallHealth
系统的总体健康状况。 dcgmHealthWatchResults_t。
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此 GPU 上指定系统的健康状况
-
unsigned int gpuId
-
struct dcgmPidInfo_v2
- #include <dcgm_structs.h>
用于存储进程统计信息。
Public Members
-
unsigned int version
此消息的版本 (dcgmPidInfo_version)
-
unsigned int pid
进程的 PID。
-
int numGpus
GPUs 中有效的 GPU 数量。
-
dcgmPidSingleInfo_t summary
gpus[] 中列出的所有 GPU 的摘要信息。
-
dcgmPidSingleInfo_t gpus[32]
此 PID 的每个 GPU 信息。
-
unsigned int version
-
struct dcgmGpuUsageInfo_t
- #include <dcgm_structs.h>
与 GPU 上的作业相对应的信息。
Public Members
-
unsigned int gpuId
此信息所属的 GPU 的 ID。 GPU_ID_INVALID = 多个 GPU 的摘要信息。
-
long long energyConsumed
以毫瓦/秒为单位的能耗。
-
dcgmStatSummaryFp64_t powerUsage
以瓦特为单位的功耗最小值/最大值/平均值。
-
dcgmStatSummaryInt64_t pcieRxBandwidth
从 GPU 读取的 PCI-E 字节数。
-
dcgmStatSummaryInt64_t pcieTxBandwidth
写入 GPU 的 PCI-E 字节数。
-
long long pcieReplays
发生的 PCI-E 重放计数。
-
long long startTime
用户提供的作业开始时间,以 1970 年以来的微秒数表示。
-
long long endTime
用户提供的作业结束时间,以 1970 年以来的微秒数表示。
-
dcgmStatSummaryInt32_t smUtilization
GPU SM 利用率,以百分比表示。
-
dcgmStatSummaryInt32_t memoryUtilization
GPU 内存利用率,以百分比表示。
-
unsigned int eccSingleBit
已弃用 - 发生的 ECC 单比特错误计数。
-
unsigned int eccDoubleBit
发生的 ECC 双比特错误计数。
-
dcgmStatSummaryInt32_t memoryClock
内存时钟频率,单位为 MHz。
-
dcgmStatSummaryInt32_t smClock
SM 时钟频率,单位为 MHz。
-
int numXidCriticalErrors
xidCriticalErrorsTs 中的有效条目数。
-
long long xidCriticalErrorsTs[10]
发生的严重 XID 错误的时间戳。
-
int numComputePids
computePids 条目中有效的计数。
-
dcgmProcessUtilInfo_t computePidInfo[16]
作业期间运行的计算进程列表。
0=无进程
-
int numGraphicsPids
graphicsPids 条目中有效的计数。
-
dcgmProcessUtilInfo_t graphicsPidInfo[16]
作业期间运行的计算进程列表。
0=无进程
-
long long maxGpuMemoryUsed
使用的最大 GPU 内存量,以字节为单位。
-
long long powerViolationTime
由于电源违规而处于降频状态的微秒数。
-
long long thermalViolationTime
由于热违规而处于降频状态的微秒数。
-
long long reliabilityViolationTime
由于可靠性限制而处于降频状态的微秒数。
-
long long boardLimitViolationTime
由于达到板卡最大电压而处于降频状态的微秒数。
-
long long lowUtilizationTime
由于低利用率而处于降频状态的微秒数。
-
long long syncBoostTime
由于同步加速而处于降频状态的微秒数。
-
dcgmHealthWatchResults_t overallHealth
系统的总体健康状况。 dcgmHealthWatchResults_t。
-
dcgmHealthSystems_t system
此信息所属的系统
-
dcgmHealthWatchResults_t health
此 GPU 上指定系统的健康状况
-
unsigned int gpuId
-
struct dcgmJobInfo_v3
- #include <dcgm_structs.h>
用于存储作业统计信息。以下字段不适用于摘要信息
pcieRxBandwidth (最小值/最大值)
pcieTxBandwidth (最小值/最大值)
smUtilization (最小值/最大值)
memoryUtilization (最小值/最大值)
memoryClock (最小值/最大值)
smClock (最小值/最大值)
processSamples
上述字段的平均值(在摘要中)是来自所有 GPU 的相应字段的平均值的平均值
Public Members
-
unsigned int version
此消息的版本 (dcgmPidInfo_version)
-
int numGpus
GPUs 中有效的 GPU 数量。
-
dcgmGpuUsageInfo_t summary
gpus[] 中列出的所有 GPU 的摘要信息。
-
dcgmGpuUsageInfo_t gpus[32]
此 PID 的每个 GPU 信息。
-
struct dcgmRunningProcess_v1
- #include <dcgm_structs.h>
计算或图形进程的正在运行的进程信息。
Public Members
-
unsigned int version
此消息的版本 (dcgmRunningProcess_version)
-
unsigned int pid
进程的 PID。
-
unsigned long long memoryUsed
此进程使用的 GPU 显存,以字节为单位。
-
unsigned int version
-
struct dcgmDiagTestResult_v2
Public Members
-
dcgmDiagResult_t status
测试结果。
-
dcgmDiagErrorDetail_t error
错误消息和错误代码(如果有)。
-
char info[1024]
从测试返回的信息详情(如果有)。
-
dcgmDiagResult_t status
-
struct dcgmDiagTestResult_v3
Public Members
-
dcgmDiagResult_t status
测试结果。
-
dcgmDiagErrorDetail_v2 error[5]
错误消息和错误代码(如果有)。
-
char info[512]
从测试返回的信息详情(如果有)。
-
dcgmDiagResult_t status
-
struct dcgmDiagResponsePerGpu_v4
- #include <dcgm_structs.h>
每个 GPU 的诊断结果结构。
Public Members
-
unsigned int gpuId
此信息所属的 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每个 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v2 results[13]
包含每个 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponsePerGpu_v5
Public Members
-
unsigned int gpuId
此信息所属的 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每个 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v3 results[13]
包含每个 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponsePerGpu_v3
- #include <dcgm_structs.h>
每个 gpu 响应结构 v3。
自 DCGM 2.4 起
Public Members
-
unsigned int gpuId
此信息所属的 GPU 的 ID。
-
unsigned int hwDiagnosticReturn
每个 GPU 硬件诊断测试返回值。
-
dcgmDiagTestResult_v2 results[9]
包含每个 GPU 测试结果的数组。
-
unsigned int gpuId
-
struct dcgmDiagResponse_v11
- #include <dcgm_structs.h>
全局诊断结果结构 v11。
自 DCGM 4.0 起
Public Members
-
unsigned int version
版本号 (dcgmDiagResponse_v11)
-
unsigned char numTests
此响应中包含的测试数量。
-
unsigned char numErrors
此响应中包含的错误数量。
-
unsigned char numInfo
此响应中包含的信息消息数量。
-
unsigned char numCategories
此响应中包含的类别数量。
-
unsigned short numEntities
此响应中包含的实体数量。
-
unsigned short numResults
此响应中包含的结果数量。
-
dcgmDiagTestRun_v1 tests[20]
每个相关测试的测试运行信息。
-
dcgmDiagEntity_v1 entities[1024]
每个实体的详细信息。
-
dcgmDiagError_v1 errors[32]
每个实体的错误。
-
dcgmDiagInfo_v1 info[16]
每个实体的信息消息。
-
dcgmDiagEntityResult_v1 results[(20 * 1024)]
每个实体的结果。
-
char categories[5][20]
插件类别列表。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[682880]
为了与 v10 及更早版本保持二进制兼容性而需要。
-
unsigned int version
-
struct dcgmDiagResponse_v10
- #include <dcgm_structs.h>
全局诊断结果结构 v10。
自 DCGM 3.3.7 起
Public Members
-
unsigned int version
版本号 (dcgmDiagResponse_v10)
-
unsigned int gpuCount
每个 GPU 有效结果的数量
-
unsigned int levelOneTestCount
levelOne 有效结果的数量
-
dcgmDiagTestResult_v3 levelOneResults[16]
基本、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v5 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_v2 systemError
NVVS 报告的系统范围错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char devSerials[32][256]
设备的序列号。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
dcgmDiagTestAuxData_v1 auxDataPerTest[13]
每个测试返回的辅助数据。
-
unsigned int version
-
struct dcgmDiagResponse_v9
- #include <dcgm_structs.h>
全局诊断结果结构 v9。
自 DCGM 3.3 起
Public Members
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
每个 GPU 有效结果的数量
-
unsigned int levelOneTestCount
levelOne 有效结果的数量
-
dcgmDiagTestResult_v3 levelOneResults[16]
基本、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v5 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_v2 systemError
NVVS 报告的系统范围错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char devSerials[32][256]
设备的序列号。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[596]
不再使用。
-
unsigned int version
-
struct dcgmDiagResponse_v8
- #include <dcgm_structs.h>
全局诊断结果结构 v8。
自 DCGM 3.0 起
Public Members
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
每个 GPU 有效结果的数量
-
unsigned int levelOneTestCount
levelOne 有效结果的数量
-
dcgmDiagTestResult_v2 levelOneResults[16]
基本、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v4 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_t systemError
NVVS 报告的系统范围错误。
-
char devIds[32][5]
每个 GPU 的 SKU 设备 ID。
-
char dcgmVersion[12]
表示 DCGM 版本的字符串。
-
char driverVersion[256]
表示驱动程序版本的字符串。
-
char _unused[596]
不再使用。
-
unsigned int version
-
struct dcgmDiagResponse_v7
- #include <dcgm_structs.h>
全局诊断结果结构 v7。
自 DCGM 2.4 起
Public Members
-
unsigned int version
版本号 (dcgmDiagResult_version)
-
unsigned int gpuCount
每个 GPU 有效结果的数量
-
unsigned int levelOneTestCount
levelOne 有效结果的数量
-
dcgmDiagTestResult_v2 levelOneResults[16]
基本、系统范围的测试结果。
-
dcgmDiagResponsePerGpu_v3 perGpuResponses[32]
每个 GPU 的测试结果
-
dcgmDiagErrorDetail_t systemError
NVVS 报告的系统范围错误。
-
char _unused[1024]
不再使用。
-
unsigned int version
-
struct dcgmDiagStatus_v1
- #include <dcgm_structs.h>
诊断实时状态结构 v1。
自 DCGM 4.0 起
Public Members
-
unsigned int version
此结构的版本。
-
unsigned int totalTests
将要执行的测试数量。
-
unsigned int completedTests
已完成的测试数量。
-
char testName[128]
最后完成的测试的名称。
-
unsigned int errorCode
最后完成的测试的第一个错误代码 - 成功时为 DCGM_FR_OK,否则为 DCGM_FR_*。
-
unsigned int version
-
struct dcgmDeviceTopology_v1
- #include <dcgm_structs.h>
设备拓扑信息。
Public Members
-
unsigned int version
版本号 (dcgmDeviceTopology_version)
-
unsigned long cpuAffinityMask[8]
指定 GPU 的亲和性掩码
1 表示在该位位置与 CPU 的亲和性,最多支持 256 个核心
-
unsigned int numGpus
gpuPaths 中有效条目的数量
-
unsigned int gpuId
路径表示的 gpuId
-
dcgmGpuTopologyLevel_t path
从此 GPU 到 gpuId 的路径。
请注意,这是一个 DCGM_TOPOLOGY_* 值的位掩码,并且可以包含 PCIe 拓扑和 NvLink 拓扑(如果适用)。例如:0x210 = DCGM_TOPOLOGY_CPU | DCGM_TOPOLOGY_NVLINK2 使用宏 DCGM_TOPOLOGY_PATH_NVLINK 和 DCGM_TOPOLOGY_PATH_PCI 分别屏蔽 NvLink 和 PCI 路径。
-
unsigned int localNvLinkIds
表示连接到 gpuId 的本地链接的位,例如:
如果此字段 == 3,则链接 0 和 1 已连接,仅当 GPU 之间实际存在 NVLINKS 时,该字段才有效
-
unsigned int version
-
struct dcgmGroupTopology_v1
- #include <dcgm_structs.h>
组拓扑信息。
Public Members
-
unsigned int version
版本号 (dcgmGroupTopology_version)
-
unsigned long groupCpuAffinityMask[8]
组中所有 GPU 的 CPU 亲和性掩码
1 表示在该位位置与 CPU 的亲和性,最多支持 256 个核心
-
unsigned int numaOptimalFlag
零值表示组中一个或多个 GPU 具有不同的 CPU 亲和性,因此可能不适合某些算法
-
dcgmGpuTopologyLevel_t slowestPath
组中 GPU 之间最慢的路径
-
unsigned int version
-
struct dcgmIntrospectMemory_v1
- #include <dcgm_structs.h>
DCGM 内存使用信息。
Public Members
-
unsigned int version
版本号 (dcgmIntrospectMemory_version)
-
long long bytesUsed
字节数
-
unsigned int version
-
struct dcgmIntrospectCpuUtil_v1
- #include <dcgm_structs.h>
DCGM CPU 利用率信息。
将数值乘以 100 即可得到百分比 (%)。
Public Members
-
unsigned int version
版本号 (dcgmMetadataCpuUtil_version)
-
double total
设备 CPU 资源的使用比例
-
double kernel
设备 CPU 资源在内核模式下的使用比例
-
double user
设备 CPU 资源在用户模式下的使用比例
-
unsigned int version
-
struct dcgmRunDiag_v7
Public Members
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断将用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。不能与 gpuList 一起指定。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][100]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 一起指定。
-
char gpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 一起指定。
-
char debugLogFile[128]
应该使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码。
或原因的 csv 列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,应多久执行一次提前失败检查。
-
unsigned int version
-
struct dcgmRunDiag_v8
Public Members
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断将用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。不能与 gpuList 一起指定。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][1050]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 一起指定。
-
char gpuList[50]
逗号分隔的 GPU 列表。不能与 groupId 一起指定。
-
char debugLogFile[128]
应该使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码。
或原因的 csv 列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,应多久执行一次提前失败检查。
-
char expectedNumEntities[50]
诊断将要运行的实体预期数量。
-
unsigned int version
-
struct dcgmRunDiag_v9
Public Members
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断将用于日志记录的调试级别。
-
dcgmGpuGrp_t groupId
要验证的 GPU 组。
不能与 entityIds 一起指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。
-
dcgmPolicyValidation_t validate
0-3,表示要运行的测试。可选。
-
char testNames[20][50]
指定的测试名称列表。可选。
-
char testParms[100][1050]
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
char fakeGpuList[50]
逗号分隔的 GPU 列表。
不能与 groupId 或 entityIds 一起指定。
-
char debugLogFile[128]
应该使用的调试日志文件的备用名称。
-
char statsPath[128]
插件的统计文件应写入的路径。
-
char configFileContents[10000]
nvvs 配置文件的内容(可能是 yaml)
-
char clocksEventMask[50]
要忽略的时钟事件原因,可以是整数掩码或。
原因的 csv 列表
-
char pluginPath[128]
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
unsigned int currentIteration
将要执行的当前迭代。
-
unsigned int totalIterations
将要执行的总迭代次数。
-
unsigned int timeoutSeconds
诊断的超时时间,以秒为单位。
-
char _unusedBuf[128]
不再使用。
-
unsigned int failCheckInterval
启用时,应多久执行一次提前失败检查。
-
char expectedNumEntities[50]
诊断将要运行的实体预期数量。
-
char entityIds[2048]
逗号分隔的实体 ID 列表。
不能与 groupId 一起指定。
-
unsigned int watchFrequency
正在监视的字段的监视频率。
-
unsigned int version
-
struct dcgmRunDiag_v10
Public Members
-
unsigned int version
此消息的版本
-
unsigned int flags
指定运行二进制文件的选项的标志。请参阅 DCGM_RUN_FLAGS_*
-
unsigned int debugLevel
0-5,表示 GPU 诊断将用于日志记录的调试级别。
-
组 ID
要验证的 GPU 组。
不能与 entityIds 一起指定。当指定 entityIds 时,此值应设置为 DCGM_GROUP_NULL。
-
验证
0-3,表示要运行的测试。可选。
-
测试名称
指定的测试名称列表。可选。
-
测试参数
为指定测试设置的参数。
格式为:testName.parameterName=parameterValue。可选。
-
伪造 GPU 列表
逗号分隔的 GPU 列表。
不能与 groupId 或 entityIds 一起指定。
-
调试日志文件
应该使用的调试日志文件的备用名称。
-
统计信息路径
插件的统计文件应写入的路径。
-
配置文件内容
nvvs 配置文件的内容(可能是 yaml)
-
时钟事件掩码
要忽略的时钟事件原因,可以是整数掩码或。
原因的 csv 列表
-
插件路径
诊断插件的自定义路径 - 自 2.2.9 版本起不再支持。
-
当前迭代
将要执行的当前迭代。
-
总迭代次数
将要执行的总迭代次数。
-
超时秒数
诊断的超时时间,以秒为单位。
-
_unusedBuf (未使用缓冲区)
不再使用。
-
失败检查间隔
启用时,应多久执行一次提前失败检查。
-
预期实体数量
诊断将要运行的实体预期数量。
-
实体 ID
逗号分隔的实体 ID 列表。
不能与 groupId 一起指定。
-
监视频率
正在监视的字段的监视频率。
-
忽略错误代码
要在不同实体上忽略的错误代码字符串。
-
unsigned int version
-
dcgmTopoSchedHint_v1 结构体
Public Members
-
版本
此消息的版本
-
输入 GPU ID
要从中选择的 GPU ID 位掩码
-
DCGM 应选择的 GPU 数量
DCGM 应选择的 GPU 数量
-
提示标志
忽略调度提示中某些因素的提示。
-
版本
-
GPU 的 NvLink 链接状态。
- #include <dcgm_structs.h>
GPU 的 NvLink 链接状态。
Public Members
-
实体 ID
GPU 的实体 ID (gpuId)
-
链接状态
每个 GPU 的链接状态。
-
实体 ID
-
dcgmNvLinkGpuLinkStatus_v2 结构体
Public Members
-
实体 ID
GPU 的实体 ID (gpuId)
-
链接状态
每个 GPU 的链接状态。
-
实体 ID
-
dcgmNvLinkGpuLinkStatus_v3 结构体
Public Members
-
实体 ID
GPU 的实体 ID (gpuId)
-
链接状态
每个 GPU 的链接状态。
-
实体 ID
-
NvSwitch 的 NvLink 链接状态。
- #include <dcgm_structs.h>
NvSwitch 的 NvLink 链接状态。
Public Members
-
实体 ID
NvSwitch 的实体 ID (physicalId)
-
链接状态
每个 NvSwitch 的链接状态。
-
实体 ID
-
给定系统中所有 NvLink 的状态。
- #include <dcgm_structs.h>
给定系统中所有 NvLink 的状态。
Public Members
-
版本
此请求的版本。应为 dcgmNvLinkStatus_version1。
-
GPU 数量
gpus[] 中已填充条目的数量。
-
GPU 数组
每个 GPU 的 NvLink 链接状态。
-
NvSwitch 数量
nvSwitches[] 中已填充条目的数量。
-
NvSwitch 数组
每个 NvSwitch 的链接状态。
-
版本
-
dcgmSummaryResponse_t 结构体
Public Members
-
字段类型
已汇总的字段类型 (int64 或 fp64)
-
汇总计数
values 中已填充的汇总数量
-
值
用于存储每个汇总值的数组。
摘要按顺序存储。例如,如果请求 MIN 和 MAX,则 0 将为 MIN,1 将为 MAX。如果请求 AVG 和 DIFF,则 AVG 将为 0,1 将为 DIFF
-
字段类型
-
dcgmFieldSummaryRequest_v1 结构体
Public Members
-
版本
此消息的版本 - dcgmFieldSummaryRequest_v1
-
字段 ID
要汇总的字段 ID
-
实体组 ID
我们要获取其字段的实体类型
-
实体 ID
此实体的序号 ID
-
汇总类型掩码
DCGM_SUMMARY_* 的位掩码,请求的摘要
-
开始时间
要汇总的时间间隔的开始时间。
0 表示使用之前的任何数据。
-
结束时间
要汇总的时间间隔的结束时间。
0 表示使用之后的任何数据。
-
响应
此请求的响应数据
-
版本
-
dcgmModuleGetStatusesModule_t 结构体
- #include <dcgm_structs.h>
主机引擎所有模块的状态。
Public Members
-
ID
此模块的 ID。
-
状态
此模块的状态。
-
ID
-
dcgmModuleGetStatuses_v1 结构体
Public Members
-
版本
此请求的版本。应为 dcgmModuleGetStatuses_version1。
-
状态数量
statuses[] 中已填充条目的数量。
-
状态数组
每个模块的状态信息。
-
版本
-
dcgmStartEmbeddedV2Params_v1 的选项。
- #include <dcgm_structs.h>
dcgmStartEmbeddedV2Params_v1 的选项。
在 DCGM 2.0.0 中添加
Public Members
-
版本
版本号。使用 dcgmStartEmbeddedV2Params_version1
-
操作模式
输入:自动或在用户要求时手动收集数据。
-
DCGM 句柄
输出:用于 API 调用的 DCGM 句柄
-
日志文件
输入:DCGM 应记录到的文件。NULL = 不记录。“-” = stdout
-
严重性
输入:DCGM 应记录到 logFile 的严重性
-
拒绝列表计数
输入:denyList[] 中的模块数
-
版本
-
dcgmStartEmbeddedV2Params_v2 的选项。
- #include <dcgm_structs.h>
dcgmStartEmbeddedV2Params_v2 的选项。
在 DCGM 2.4.0 中添加,在 3.0.0 中重命名成员
Public Members
-
版本
版本号。使用 dcgmStartEmbeddedV2Params_version2
-
操作模式
输入:自动或在用户要求时手动收集数据。
-
DCGM 句柄
输出:用于 API 调用的 DCGM 句柄
-
日志文件
输入:DCGM 应记录到的文件。NULL = 不记录。“-” = stdout
-
严重性
输入:DCGM 应记录到 logFile 的严重性
-
unsigned int denyListCount
输入:要添加到 denyList[] 中拒绝列表的模块数量
-
const char *serviceAccount
输入:非特权进程的服务帐户
-
unsigned int denyList[DcgmModuleIdCount]
输入:要添加到拒绝列表的模块 ID
-
版本
-
struct dcgmProfMetricGroupInfo_v2
- #include <dcgm_structs.h>
用于返回给定 groupId 可用的所有性能分析指标组的结构。
Public Members
-
unsigned short majorId
此指标组的主 ID。
具有相同 majorId 的指标组不能与其他具有相同 majorId 的指标组同时被监视
-
unsigned short minorId
此指标组的次 ID。
这用于区分同一主指标组内的不同指标组
-
unsigned int numFieldIds
在 fieldIds[] 中填充的字段 ID 数量。
-
unsigned short fieldIds[64]
属于此性能分析的 DCGM 字段 ID。
组。 有关详细信息,请参阅 dcgm_fields.h 中的 DCGM_FI_PROF_* 定义。
-
unsigned short majorId
-
struct dcgmProfGetMetricGroups_v3
输入参数
-
unsigned int version
此请求的版本。应为 dcgmProfGetMetricGroups_version。
-
unsigned int unused
目前未使用。设置为 0。
-
unsigned int gpuId
我们应该获取其指标组的 GPU ID。
输出
-
unsigned int numMetricGroups
metricGroups[] 中已填充的条目数。
-
dcgmProfMetricGroupInfo_v2 metricGroups[10]
每个指标组的信息。
-
unsigned int version
-
struct dcgmSettingsSetLoggingSeverity_v1
- #include <dcgm_structs.h>
dcgmSettingsSetLoggingSeverity_t 的版本 1。
-
struct dcgmSettingsSetLoggingSeverity_v2
- #include <dcgm_structs.h>
dcgmSettingsSetLoggingSeverity_t 的版本 2。
-
struct dcgmVersionInfo_v2
- #include <dcgm_structs.h>
用于描述 DCGM 构建环境版本 2.0 的结构。
Public Members
-
char rawBuildInfoString[256 * 2]
DCGM 构建信息的原始形式。
可能有多个键值对,用分号 (;) 分隔。
每对键值对都用冒号 (:) 分隔。只有第一个冒号被视为分隔符。
值可以包含冒号字符。值和键不能包含分号字符。
通常定义的键是
version : DCGM 版本。arch : 目标 DCGM 架构。buildid : 构建 ID。通常是一个序列号。commit : 提交 ID(通常是 git 提交哈希值)。author : 上述提交的作者。branch : 分支(通常是用于构建的 git 分支)。buildtype : 构建类型。builddate : 构建日期。buildplatform : 进行构建的平台。
任何或所有键都可能不存在。
这些值仅供参考,不应参与任何复杂的逻辑。
-
char rawBuildInfoString[256 * 2]
-
DCGM_HOME_DIR_VAR_NAME "DCGM_HOME_DIR"