字段标识符

group dcgmFieldIdentifiers

字段标识符。

定义

DCGM_FI_UNKNOWN 0

NULL 字段。

DCGM_FI_DRIVER_VERSION 1

驱动程序版本。

DCGM_FI_NVML_VERSION 2
DCGM_FI_PROCESS_NAME 3
DCGM_FI_DEV_COUNT 4

节点上的设备数量。

DCGM_FI_CUDA_DRIVER_VERSION 5

CUDA 驱动程序版本检索一个数字,其中主要值在千位,次要值在百位。

CUDA 11.1 = 11100

DCGM_FI_DEV_NAME 50

GPU 设备名称。

DCGM_FI_DEV_BRAND 51

设备品牌。

DCGM_FI_DEV_NVML_INDEX 52

此 GPU 的 NVML 索引。

DCGM_FI_DEV_SERIAL 53

设备序列号。

DCGM_FI_DEV_UUID 54

与设备对应的 UUID。

DCGM_FI_DEV_MINOR_NUMBER 55

设备节点次要号码 /dev/nvidia#。

DCGM_FI_DEV_OEM_INFOROM_VER 56

OEM inforom 版本。

DCGM_FI_DEV_PCI_BUSID 57

设备的 PCI 属性。

DCGM_FI_DEV_PCI_COMBINED_ID 58

组合的 16 位设备 ID 和 16 位供应商 ID。

DCGM_FI_DEV_PCI_SUBSYS_ID 59

32 位子系统设备 ID。

DCGM_FI_GPU_TOPOLOGY_PCI 60

系统上所有 GPU 通过 PCI 的拓扑结构(静态)

系统上所有 GPU 通过 NVLINK 的拓扑结构(静态)

DCGM_FI_GPU_TOPOLOGY_AFFINITY 62

系统上所有 GPU 的亲缘性(静态)

DCGM_FI_DEV_CUDA_COMPUTE_CAPABILITY 63

设备的 Cuda 计算能力。

主版本是高 32 位,次版本是低 32 位。

DCGM_FI_DEV_COMPUTE_MODE 65

设备的计算模式。

DCGM_FI_DEV_PERSISTENCE_MODE 66

设备的持久模式 布尔值:0 表示禁用,1 表示启用。

DCGM_FI_DEV_MIG_MODE 67

设备的 MIG 模式 布尔值:0 表示禁用,1 表示启用。

DCGM_FI_DEV_CUDA_VISIBLE_DEVICES_STR 68

CUDA_VISIBLE_DEVICES 应该为此实体设置的字符串(包括 MIG)

DCGM_FI_DEV_MIG_MAX_SLICES 69

此 GPU 支持的最大 MIG 切片数。

DCGM_FI_DEV_CPU_AFFINITY_0 70

设备 CPU 亲缘性。

第 1/8 部分 = cpu 0 - 63

DCGM_FI_DEV_CPU_AFFINITY_1 71

设备 CPU 亲缘性。

第 1/8 部分 = cpu 64 - 127

DCGM_FI_DEV_CPU_AFFINITY_2 72

设备 CPU 亲缘性。

第 2/8 部分 = cpu 128 - 191

DCGM_FI_DEV_CPU_AFFINITY_3 73

设备 CPU 亲缘性。

第 3/8 部分 = cpu 192 - 255

DCGM_FI_DEV_CC_MODE 74

此系统的保密计算/安培保护内存状态 0 = 禁用 1 = 启用。

DCGM_FI_DEV_MIG_ATTRIBUTES 75

给定 MIG 设备句柄的属性。

DCGM_FI_DEV_MIG_GI_INFO 76

GPU 实例配置文件信息。

DCGM_FI_DEV_MIG_CI_INFO 77

计算实例配置文件信息。

DCGM_FI_DEV_ECC_INFOROM_VER 80

ECC inforom 版本。

DCGM_FI_DEV_POWER_INFOROM_VER 81

电源管理对象 inforom 版本。

DCGM_FI_DEV_INFOROM_IMAGE_VER 82

Inforom 镜像版本。

DCGM_FI_DEV_INFOROM_CONFIG_CHECK 83

Inforom 配置校验和。

DCGM_FI_DEV_INFOROM_CONFIG_VALID 84

从闪存读取 infoROM 并验证校验和。

DCGM_FI_DEV_VBIOS_VERSION 85

设备的 VBIOS 版本。

DCGM_FI_DEV_MEM_AFFINITY_0 86

设备内存节点亲缘性,0-63。

DCGM_FI_DEV_MEM_AFFINITY_1 87

设备内存节点亲缘性,64-127。

DCGM_FI_DEV_MEM_AFFINITY_2 88

设备内存节点亲缘性,128-191。

DCGM_FI_DEV_MEM_AFFINITY_3 89

设备内存节点亲缘性,192-255。

DCGM_FI_DEV_BAR1_TOTAL 90

GPU 的总 BAR1,单位为 MB。

DCGM_FI_SYNC_BOOST 91

已弃用 - 节点上的同步加速设置。

DCGM_FI_DEV_BAR1_USED 92

GPU 已用 BAR1,单位为 MB。

DCGM_FI_DEV_BAR1_FREE 93

GPU 可用 BAR1,单位为 MB。

DCGM_FI_DEV_GPM_SUPPORT 94

  • 设备对 GPM 的支持

DCGM_FI_DEV_SM_CLOCK 100

设备的 SM 时钟。

DCGM_FI_DEV_MEM_CLOCK 101

设备的显存时钟。

DCGM_FI_DEV_VIDEO_CLOCK 102

设备的视频编码器/解码器时钟。

DCGM_FI_DEV_APP_SM_CLOCK 110

SM 应用程序时钟。

DCGM_FI_DEV_APP_MEM_CLOCK 111

显存应用程序时钟。

DCGM_FI_DEV_CLOCKS_EVENT_REASONS 112

当前时钟事件原因(DCGM_CLOCKS_EVENT_REASON_* 的位掩码)

DCGM_FI_DEV_CLOCK_THROTTLE_REASONS DCGM_FI_DEV_CLOCKS_EVENT_REASONS

已弃用:请改用 DCGM_FI_DEV_CLOCKS_EVENT_REASONS。

DCGM_FI_DEV_MAX_SM_CLOCK 113

设备支持的最大 SM 时钟。

DCGM_FI_DEV_MAX_MEM_CLOCK 114

设备支持的最大显存时钟。

DCGM_FI_DEV_MAX_VIDEO_CLOCK 115

设备支持的最大视频编码器/解码器时钟。

DCGM_FI_DEV_AUTOBOOST 120

设备的自动加速 (1 = 已启用。

0 = 已禁用)

DCGM_FI_DEV_SUPPORTED_CLOCKS 130

设备支持的时钟。

DCGM_FI_DEV_MEMORY_TEMP 140

设备的显存温度。

DCGM_FI_DEV_GPU_TEMP 150

设备的当前温度读数,单位为摄氏度。

DCGM_FI_DEV_MEM_MAX_OP_TEMP 151

此 GPU 显存的最大工作温度。

DCGM_FI_DEV_GPU_MAX_OP_TEMP 152

此 GPU 的最大工作温度。

DCGM_FI_DEV_GPU_TEMP_LIMIT 153

此 GPU 的热裕量温度(到最近减速阈值的距离)。

DCGM_FI_DEV_POWER_USAGE 155

设备的功耗,单位为瓦特。

DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 156

自上次重新加载驱动程序以来,GPU 的总能耗,单位为毫焦耳。

DCGM_FI_DEV_POWER_USAGE_INSTANT 157

设备当前的瞬时功耗,单位为瓦特。

DCGM_FI_DEV_SLOWDOWN_TEMP 158

设备的减速温度。

DCGM_FI_DEV_SHUTDOWN_TEMP 159

设备的关机温度。

DCGM_FI_DEV_POWER_MGMT_LIMIT 160

设备当前的功率限制。

DCGM_FI_DEV_POWER_MGMT_LIMIT_MIN 161

设备的最小功率管理限制。

DCGM_FI_DEV_POWER_MGMT_LIMIT_MAX 162

设备的最大功率管理限制。

DCGM_FI_DEV_POWER_MGMT_LIMIT_DEF 163

设备的默认功率管理限制。

DCGM_FI_DEV_ENFORCED_POWER_LIMIT 164

驱动程序在考虑所有限制器后强制执行的有效功率限制。

DCGM_FI_DEV_REQUESTED_POWER_PROFILE_MASK 165

请求的工作负载功率配置文件掩码(Blackwell 及更新版本)

DCGM_FI_DEV_ENFORCED_POWER_PROFILE_MASK 166

强制执行的工作负载功率配置文件掩码(Blackwell 及更新版本)

DCGM_FI_DEV_VALID_POWER_PROFILE_MASK 167

请求的工作负载功率配置文件掩码(Blackwell 及更新版本)

DCGM_FI_DEV_FABRIC_MANAGER_STATUS 170

Fabric Manager 的状态 - 来自 dcgmFabricManagerStatus_t 的值。

DCGM_FI_DEV_FABRIC_MANAGER_ERROR_CODE 171

启动 Fabric Manager 时发生的故障(如果有)。注意:除非 Fabric Manager 完成启动,否则不会填充此项。

DCGM_FI_DEV_FABRIC_CLUSTER_UUID 172

此 GPU 所属集群的 UUID。

DCGM_FI_DEV_FABRIC_CLIQUE_ID 173

此 GPU 所属 Fabric Clique 的 ID。

DCGM_FI_DEV_PSTATE 190

性能状态 (P 状态) 0-15。

0=最高

DCGM_FI_DEV_FAN_SPEED 191

设备的风扇速度,百分比为 0-100。

DCGM_FI_DEV_PCIE_TX_THROUGHPUT 200

PCIe Tx 利用率信息。

已弃用:请改用 DCGM_FI_PROF_PCIE_TX_BYTES。

DCGM_FI_DEV_PCIE_RX_THROUGHPUT 201

PCIe Rx 利用率信息。

已弃用:请改用 DCGM_FI_PROF_PCIE_RX_BYTES。

DCGM_FI_DEV_PCIE_REPLAY_COUNTER 202

PCIe 重放计数器。

DCGM_FI_DEV_GPU_UTIL 203

GPU 利用率。

DCGM_FI_DEV_MEM_COPY_UTIL 204

显存利用率。

DCGM_FI_DEV_ACCOUNTING_DATA 205

进程记帐统计信息。

仅当主机引擎以 root 身份运行时才支持此字段,除非您提前启用记帐。可以通过以 root 身份在主机引擎运行的同一节点上运行 “nvidia-smi -am 1” 来启用记帐模式。

DCGM_FI_DEV_ENC_UTIL 206

编码器利用率。

DCGM_FI_DEV_DEC_UTIL 207

解码器利用率。

DCGM_FI_DEV_XID_ERRORS 230

XID 错误。

该值是特定的 XID 错误

PCIe 最大链路代数。

PCIe 最大链路宽度。

PCIe 当前链路代数。

PCIe 当前链路宽度。

DCGM_FI_DEV_POWER_VIOLATION 240

功率违规时间,单位为纳秒。

DCGM_FI_DEV_THERMAL_VIOLATION 241

热违规时间,单位为纳秒。

DCGM_FI_DEV_SYNC_BOOST_VIOLATION 242

同步加速违规时间,单位为纳秒。

DCGM_FI_DEV_BOARD_LIMIT_VIOLATION 243

板级违规限制。

DCGM_FI_DEV_LOW_UTIL_VIOLATION 244

低利用率违规限制。

DCGM_FI_DEV_RELIABILITY_VIOLATION 245

可靠性违规限制。

DCGM_FI_DEV_TOTAL_APP_CLOCKS_VIOLATION 246

应用程序时钟违规限制。

DCGM_FI_DEV_TOTAL_BASE_CLOCKS_VIOLATION 247

基本时钟违规限制。

DCGM_FI_DEV_FB_TOTAL 250

GPU 的总帧缓冲区,单位为 MB。

DCGM_FI_DEV_FB_FREE 251

空闲帧缓冲区,单位为 MB。

DCGM_FI_DEV_FB_USED 252

已用帧缓冲区,单位为 MB。

DCGM_FI_DEV_FB_RESERVED 253

保留帧缓冲区,单位为 MB。

DCGM_FI_DEV_FB_USED_PERCENT 254

帧缓冲区的已用百分比:“已用/(总计 - 保留)”。

范围 0.0-1.0

C2C 链路计数。

C2C 链路状态。值为 0 表示链路处于 INACTIVE 状态。

值为 1 表示链路处于 ACTIVE 状态。

DCGM_FI_DEV_C2C_MAX_BANDWIDTH 287

C2C 最大带宽。该值表示链路速度,单位为 MB/秒。

DCGM_FI_DEV_ECC_CURRENT 300

设备当前的 ECC 模式。

DCGM_FI_DEV_ECC_PENDING 301

设备待定的 ECC 模式。

DCGM_FI_DEV_ECC_SBE_VOL_TOTAL 310

单比特易失性 ECC 错误总数。

DCGM_FI_DEV_ECC_DBE_VOL_TOTAL 311

双比特易失性 ECC 错误总数。

DCGM_FI_DEV_ECC_SBE_AGG_TOTAL 312

单比特聚合(持久性)ECC 错误总数。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_TOTAL 313

双比特聚合(持久性)ECC 错误总数。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_VOL_L1 314

L1 缓存单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_L1 315

L1 缓存双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_L2 316

L2 缓存单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_L2 317

L2 缓存双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_DEV 318

设备内存单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_DEV 319

设备内存双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_REG 320

寄存器文件单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_REG 321

寄存器文件双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_TEX 322

纹理内存单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_TEX 323

纹理内存双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_AGG_L1 324

L1 缓存单比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_L1 325

L1 缓存双比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_AGG_L2 326

L2 缓存单比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_L2 327

L2 缓存双比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_AGG_DEV 328

设备内存单比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_DEV 329

设备内存双比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_AGG_REG 330

寄存器文件单比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_REG 331

寄存器文件双比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_AGG_TEX 332

纹理内存单比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_DBE_AGG_TEX 333

纹理内存双比特聚合(持久性)ECC 错误。注意:单调递增。

DCGM_FI_DEV_ECC_SBE_VOL_SHM 334

纹理 SHM 单比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_DBE_VOL_SHM 335

纹理 SHM 双比特易失性 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_CBU 336

CBU 单比特 ECC 易失性错误。

DCGM_FI_DEV_ECC_DBE_VOL_CBU 337

CBU 双比特 ECC 易失性错误。

DCGM_FI_DEV_ECC_SBE_AGG_SHM 338

纹理 SHM 单比特聚合 ECC 错误。

DCGM_FI_DEV_ECC_DBE_AGG_SHM 339

纹理 SHM 双比特聚合 ECC 错误。

DCGM_FI_DEV_ECC_SBE_AGG_CBU 340

CBU 单比特聚合 ECC 错误。

DCGM_FI_DEV_ECC_DBE_AGG_CBU 341

CBU 双比特聚合 ECC 错误。

DCGM_FI_DEV_ECC_SBE_VOL_SRM 342

图灵及更高版本字段。

SRAM 单比特 ECC 易失性错误

DCGM_FI_DEV_ECC_DBE_VOL_SRM 343

SRAM 双比特 ECC 易失性错误。

DCGM_FI_DEV_ECC_SBE_AGG_SRM 344

SRAM 单比特 ECC 聚合错误。

DCGM_FI_DEV_ECC_DBE_AGG_SRM 345

SRAM 双比特 ECC 聚合错误。

DCGM_FI_DEV_DIAG_MEMORY_RESULT 350

GPU 内存测试的结果。指的是存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_DIAGNOSTIC_RESULT 351

诊断测试的结果。指的是存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_PCIE_RESULT 352

PCIe + NVLink 测试的结果。指的是存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_TARGETED_STRESS_RESULT 353

目标压力测试的结果。指的是存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_TARGETED_POWER_RESULT 354

目标功率测试的结果。指的是存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_MEMORY_BANDWIDTH_RESULT 355

内存带宽测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_MEMTEST_RESULT 356

内存压力测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_PULSE_TEST_RESULT 357

输入能量延迟乘积功率 (EDPp) 测试的结果(也称为

脉冲测试)。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_EUD_RESULT 358

扩展实用程序诊断 (EUD) 测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_CPU_EUD_RESULT 359

CPU 扩展实用程序诊断 (CPU EUD) 测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_SOFTWARE_RESULT 360

软件测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_NVBANDWIDTH_RESULT 361

NVBandwidth 测试的结果。指存储从 dcgmError_t 枚举中提取的值的 int64_t

DCGM_FI_DEV_DIAG_STATUS 362
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_MAX 385

每个内存库的历史最大可用备用内存行数。

DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_HIGH 386

每个内存库的历史最高可用备用内存行数标记。

DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_PARTIAL 387

每个内存库的部分可用备用内存行数的历史标记。

DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_LOW 388

每个内存库的历史最低可用备用内存行数标记。

DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_NONE 389

没有可用备用内存行的内存库的历史标记。

DCGM_FI_DEV_RETIRED_SBE 390

由于单位错误而停用的页面数。注意:单调递增。

DCGM_FI_DEV_RETIRED_DBE 391

由于双位错误而停用的页面数。注意:单调递增。

DCGM_FI_DEV_RETIRED_PENDING 392

等待停用的页面数。

DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 393

针对不可纠正错误重新映射的行数。

DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 394

针对可纠正错误重新映射的行数。

DCGM_FI_DEV_ROW_REMAP_FAILURE 395

行的重新映射是否失败。

DCGM_FI_DEV_ROW_REMAP_PENDING 396

行的重新映射是否正在进行中。

DCGM_FI_DEV_VIRTUAL_MODE 500

与 GPU 对应的虚拟化模式。

DCGM_GPU_VIRTUALIZATION_MODE_* 常量之一。

DCGM_FI_DEV_SUPPORTED_TYPE_INFO 501

包括设备上支持的 vGPU 类型的计数和静态信息。

DCGM_FI_DEV_CREATABLE_VGPU_TYPE_IDS 502

包括设备上当前可创建的 vGPU 类型计数。

DCGM_FI_DEV_VGPU_INSTANCE_IDS 503

包括设备上当前活动的 vGPU 实例计数。

DCGM_FI_DEV_VGPU_UTILIZATIONS 504

设备上运行的 vGPU 的利用率值。

DCGM_FI_DEV_VGPU_PER_PROCESS_UTILIZATION 505

使用该设备的 vGPU VM 中运行的进程的利用率值。

DCGM_FI_DEV_ENC_STATS 506

给定设备的当前编码器统计信息。

DCGM_FI_DEV_FBC_STATS 507

给定设备上当前活动帧缓冲区捕获会话的统计信息。

DCGM_FI_DEV_FBC_SESSIONS_INFO 508

有关目标设备上活动帧缓冲区捕获会话的信息。

DCGM_FI_DEV_SUPPORTED_VGPU_TYPE_IDS 509

包括设备上计数和当前支持的 vGPU 类型。

DCGM_FI_DEV_VGPU_TYPE_INFO 510

包括设备上支持的 vGPU 类型的静态信息。

DCGM_FI_DEV_VGPU_TYPE_NAME 511

包括设备上支持的 vGPU 类型的名称。

DCGM_FI_DEV_VGPU_TYPE_CLASS 512

包括设备上支持的 vGPU 类型的类别。

DCGM_FI_DEV_VGPU_TYPE_LICENSE 513

包括设备上支持的 vGPU 类型的许可证信息。

DCGM_FI_DEV_VGPU_VM_ID 520

vGPU 实例的虚拟机 ID。

DCGM_FI_DEV_VGPU_VM_NAME 521

vGPU 实例的虚拟机名称。

DCGM_FI_DEV_VGPU_TYPE 522

vGPU 实例的 vGPU 类型

DCGM_FI_DEV_VGPU_UUID 523

vGPU 实例的 UUID。

DCGM_FI_DEV_VGPU_DRIVER_VERSION 524

vGPU 实例的驱动程序版本。

DCGM_FI_DEV_VGPU_MEMORY_USAGE 525

vGPU 实例的内存使用量。

DCGM_FI_DEV_VGPU_LICENSE_STATUS 526

vGPU 的许可证状态。

0 = vgpu 未获得许可

1 = vgpu 已获得许可

DCGM_FI_DEV_VGPU_FRAME_RATE_LIMIT 527

vGPU 实例的帧率限制。

DCGM_FI_DEV_VGPU_ENC_STATS 528

vGPU 实例的当前编码器统计信息。

DCGM_FI_DEV_VGPU_ENC_SESSIONS_INFO 529

有关 vGPU 实例上所有活动编码器会话的信息。

DCGM_FI_DEV_VGPU_FBC_STATS 530

vGPU 实例上当前活动帧缓冲区捕获会话的统计信息。

DCGM_FI_DEV_VGPU_FBC_SESSIONS_INFO 531

有关 vGPU 实例上活动帧缓冲区捕获会话的信息。

DCGM_FI_DEV_VGPU_INSTANCE_LICENSE_STATE 532

vGPU 实例的许可证状态信息。

DCGM_FI_DEV_VGPU_PCI_ID 533

vGPU 实例的 PCI ID。

DCGM_FI_DEV_VGPU_VM_GPU_INSTANCE_ID 534

给定 vGPU 实例的 GPU 实例 ID。

DCGM_FI_FIRST_VGPU_FIELD_ID 520

vGPU 实例的起始字段 ID。

DCGM_FI_LAST_VGPU_FIELD_ID 570

vGPU 实例的最后一个字段 ID。

DCGM_FI_MAX_VGPU_FIELDS DCGM_FI_LAST_VGPU_FIELD_ID - DCGM_FI_FIRST_VGPU_FIELD_ID

目前,最大 vGPU 字段 ID 取为 DCGM_FI_LAST_VGPU_FIELD_ID 和 DCGM_FI_LAST_VGPU_FIELD_ID 的差值,即:

50

DCGM_FI_DEV_PLATFORM_INFINIBAND_GUID 571

Infiniband GUID 字符串 (例如

xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)

DCGM_FI_DEV_PLATFORM_CHASSIS_SERIAL_NUMBER 572

包含此 GPU 的机箱的序列号。

DCGM_FI_DEV_PLATFORM_CHASSIS_SLOT_NUMBER 573

包含 GPU 的机架中的插槽号(包括交换机)

DCGM_FI_DEV_PLATFORM_TRAY_INDEX 574

包含此 GPU 的机箱中计算插槽内的托盘索引(不包括交换机)

DCGM_FI_DEV_PLATFORM_HOST_ID 575

包含 GPU 的插槽内的节点索引。

DCGM_FI_DEV_PLATFORM_PEER_TYPE 576

平台指示的 NVLink 对等类型(例如

是否存在交换机)

DCGM_FI_DEV_PLATFORM_MODULE_ID 577

节点内 GPU 的 ID。

DCGM_FI_INTERNAL_FIELDS_0_START 600

所有内部字段的起始 ID。

DCGM_FI_INTERNAL_FIELDS_0_END 699

所有内部字段的最后一个 ID。

NVSwitch 实体字段 ID 从此处开始。

端口 0 的 NVSwitch 延迟 bins

DCGM_FI_FIRST_NVSWITCH_FIELD_ID 700

NVSwitch 实例的起始字段 ID。

DCGM_FI_DEV_NVSWITCH_VOLTAGE_MVOLT 701

NvSwitch 电压。

DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ 702

NvSwitch 电流 IDDQ。

DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ_REV 703

NvSwitch 电流 IDDQ Rev。

DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ_DVDD 704

NvSwitch 电流 IDDQ Rev DVDD。

DCGM_FI_DEV_NVSWITCH_POWER_VDD 705

NvSwitch 功率 VDD,单位为瓦特。

DCGM_FI_DEV_NVSWITCH_POWER_DVDD 706

NvSwitch 功率 DVDD,单位为瓦特。

DCGM_FI_DEV_NVSWITCH_POWER_HVDD 707

NvSwitch 功率 HVDD,单位为瓦特。

端口 0-17 的 NVSwitch Tx 吞吐量计数器

端口 0-17 的 NVSwitch Rx 吞吐量计数器。

端口 0-17 的 NvSwitch fatal_errors。

端口 0-17 的 NvSwitch non_fatal_errors。

端口 0-17 的 NvSwitch replay_count_errors。

端口 0-17 的 NvSwitch recovery_count_errors。

端口 0-17 的 NvSwitch filt_err_count_errors。

端口 0-17 的 NvLink lane_crs_err_count_aggregate_errors。

端口 0-17 的 NvLink lane ecc_err_count_aggregate_errors。

Nvlink 通道延迟低 lane0 计数器。

Nvlink 通道延迟低 lane1 计数器。

Nvlink 通道延迟低 lane2 计数器。

Nvlink 通道延迟低 lane3 计数器。

Nvlink 通道延迟中 lane0 计数器。

Nvlink 通道延迟中 lane1 计数器。

Nvlink 通道延迟中 lane2 计数器。

Nvlink 通道延迟中 lane3 计数器。

Nvlink 通道延迟高 lane0 计数器。

Nvlink 通道延迟高 lane1 计数器。

Nvlink 通道延迟高 lane2 计数器。

Nvlink 通道延迟高 lane3 计数器。

Nvlink 通道延迟 panic lane0 计数器。

Nvlink 通道延迟 panic lane1 计数器。

Nvlink 通道延迟 panic lane2 计数器。

Nvlink 通道延迟 panic lane2 计数器。

Nvlink 通道延迟计数 lane0 计数器。

Nvlink 通道延迟计数 lane1 计数器。

Nvlink 通道延迟计数 lane2 计数器。

Nvlink 通道延迟计数 lane3 计数器。

端口 0-17 上通道 0 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 1 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 2 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 3 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 0 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 1 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 2 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 3 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 4 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 5 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 6 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 7 的 NvLink 通道 crc_err_count。

端口 0-17 上通道 4 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 5 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 6 的 NvLink 通道 ecc_err_count。

端口 0-17 上通道 7 的 NvLink 通道 ecc_err_count。

通道 0 的 NV Link TX 带宽计数器。

通道 1 的 NV Link TX 带宽计数器。

通道 2 的 NV Link TX 带宽计数器。

通道 3 的 NV Link TX 带宽计数器。

通道 4 的 NV Link TX 带宽计数器。

通道 5 的 NV Link TX 带宽计数器。

通道 6 的 NV Link TX 带宽计数器。

通道 7 的 NV Link TX 带宽计数器。

通道 8 的 NV Link TX 带宽计数器。

通道 9 的 NV Link TX 带宽计数器。

通道 10 的 NV Link TX 带宽计数器。

通道 11 的 NV Link TX 带宽计数器。

通道 12 的 NV Link TX 带宽计数器。

通道 13 的 NV Link TX 带宽计数器。

NVLink TX 带宽计数器,用于通道 14。

NVLink TX 带宽计数器,用于通道 15。

NVLink TX 带宽计数器,用于通道 16。

NVLink TX 带宽计数器,用于通道 17。

NVLink 带宽计数器,所有 TX 通道总计。

DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS 856

NVSwitch 致命错误信息。

注意:值字段指示报告的具体 SXid

DCGM_FI_DEV_NVSWITCH_NON_FATAL_ERRORS 857

NVSwitch 非致命错误信息。

注意:值字段指示报告的具体 SXid

DCGM_FI_DEV_NVSWITCH_TEMPERATURE_CURRENT 858

NVSwitch 当前温度。

DCGM_FI_DEV_NVSWITCH_TEMPERATURE_LIMIT_SLOWDOWN 859

NVSwitch 限制减速温度。

DCGM_FI_DEV_NVSWITCH_TEMPERATURE_LIMIT_SHUTDOWN 860

NVSwitch 限制关机温度。

DCGM_FI_DEV_NVSWITCH_THROUGHPUT_TX 861

NVSwitch 吞吐量 Tx。

DCGM_FI_DEV_NVSWITCH_THROUGHPUT_RX 862

NVSwitch 吞吐量 Rx。

DCGM_FI_DEV_NVSWITCH_PHYS_ID 863
DCGM_FI_DEV_NVSWITCH_RESET_REQUIRED 864

NVSwitch 需要重置。

NvSwitch NvLink ID。

DCGM_FI_DEV_NVSWITCH_PCIE_DOMAIN 866

NVSwitch PCIE 域。

DCGM_FI_DEV_NVSWITCH_PCIE_BUS 867

NVSwitch PCIE 总线。

DCGM_FI_DEV_NVSWITCH_PCIE_DEVICE 868

NVSwitch PCIE 设备。

DCGM_FI_DEV_NVSWITCH_PCIE_FUNCTION 869

NVSwitch PCIE 功能。

NvLink 状态。

未知:-1 关闭:0 安全:1 活跃:2 错误:3

NvLink 设备类型 (GPU/交换机)。

NvLink 设备 pcie 域。

NvLink 设备 pcie 总线。

NvLink 设备 pcie 设备。

NvLink 设备 pcie 功能。

NvLink 设备链接 ID。

NvLink 设备 SID。

DCGM_FI_DEV_NVSWITCH_DEVICE_UUID 878

NvLink 设备交换机/链接 uid。

NVLink RX 带宽计数器,用于通道 0。

NVLink RX 带宽计数器,用于通道 1。

NVLink RX 带宽计数器,用于通道 2。

NVLink RX 带宽计数器,用于通道 3。

NVLink RX 带宽计数器,用于通道 4。

NVLink RX 带宽计数器,用于通道 5。

NVLink RX 带宽计数器,用于通道 6。

NVLink RX 带宽计数器,用于通道 7。

NVLink RX 带宽计数器,用于通道 8。

NVLink RX 带宽计数器,用于通道 9。

NVLink RX 带宽计数器,用于通道 10。

NVLink RX 带宽计数器,用于通道 11。

NVLink RX 带宽计数器,用于通道 12。

NVLink RX 带宽计数器,用于通道 13。

NVLink RX 带宽计数器,用于通道 14。

NVLink RX 带宽计数器,用于通道 15。

NVLink RX 带宽计数器,用于通道 16。

NVLink RX 带宽计数器,用于通道 17。

NVLink 带宽计数器,所有 RX 通道总计。

DCGM_FI_LAST_NVSWITCH_FIELD_ID 899

NVSwitch 实例的最后一个字段 ID。

DCGM_FI_MAX_NVSWITCH_FIELDS DCGM_FI_LAST_NVSWITCH_FIELD_ID - DCGM_FI_FIRST_NVSWITCH_FIELD_ID + 1

目前,NVSwitch 最大字段 ID 取 DCGM_FI_LAST_NVSWITCH_FIELD_ID 和 DCGM_FI_FIRST_NVSWITCH_FIELD_ID + 1 的差值,即

200

DCGM_FI_PROF_GR_ENGINE_ACTIVE 1001

性能分析字段。

这些都以 DCGM_FI_PROF_* 开头。图形引擎处于活动状态的时间比率。如果绑定了图形/计算上下文,并且图形管道或计算管道正忙,则图形引擎处于活动状态。

DCGM_FI_PROF_SM_ACTIVE 1002

SM 至少分配了 1 个 warp 的周期比率(根据周期数和经过的周期数计算)。

DCGM_FI_PROF_SM_OCCUPANCY 1003

SM 上驻留的 warp 数量的比率。

(驻留数量与每个经过周期内 warp 的理论最大数量的比率)

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 1004

任何张量管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。

DCGM_FI_PROF_DRAM_ACTIVE 1005

设备内存接口处于活动状态发送或接收数据的周期比率。

DCGM_FI_PROF_PIPE_FP64_ACTIVE 1006

fp64 管道处于活动状态的周期比率。

DCGM_FI_PROF_PIPE_FP32_ACTIVE 1007

fp32 管道处于活动状态的周期比率。

DCGM_FI_PROF_PIPE_FP16_ACTIVE 1008

fp16 管道处于活动状态的周期比率。

这不包括 HMMA。

DCGM_FI_PROF_PCIE_TX_BYTES 1009

活动 PCIe tx(发送)数据的字节数,包括头部和有效负载。

注意:这是从 GPU 的角度来看的,因此将数据从设备复制到主机 (DtoH) 将反映在此指标中。

DCGM_FI_PROF_PCIE_RX_BYTES 1010

活动 PCIe rx(读取)数据的字节数,包括头部和有效负载。

注意:这是从 GPU 的角度来看的,因此将数据从主机复制到设备 (HtoD) 将反映在此指标中。

活动 NvLink tx(发送)数据的总字节数,包括头部和有效负载。

每个链接的字段在下面提供

活动 NvLink rx(读取)数据的总字节数,包括头部和有效负载。

每个链接的字段在下面提供

DCGM_FI_PROF_PIPE_TENSOR_IMMA_ACTIVE 1013

张量 (IMMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。

DCGM_FI_PROF_PIPE_TENSOR_HMMA_ACTIVE 1014

张量 (HMMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。

DCGM_FI_PROF_PIPE_TENSOR_DFMA_ACTIVE 1015

张量 (DFMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。

DCGM_FI_PROF_PIPE_INT_ACTIVE 1016

整数管道处于活动状态的周期比率。

DCGM_FI_PROF_NVDEC0_ACTIVE 1017

每个 NVDEC 引擎处于活动状态的周期比率。

DCGM_FI_PROF_NVDEC1_ACTIVE 1018
DCGM_FI_PROF_NVDEC2_ACTIVE 1019
DCGM_FI_PROF_NVDEC3_ACTIVE 1020
DCGM_FI_PROF_NVDEC4_ACTIVE 1021
DCGM_FI_PROF_NVDEC5_ACTIVE 1022
DCGM_FI_PROF_NVDEC6_ACTIVE 1023
DCGM_FI_PROF_NVDEC7_ACTIVE 1024
DCGM_FI_PROF_NVJPG0_ACTIVE 1025

每个 NVJPG 引擎处于活动状态的周期比率。

DCGM_FI_PROF_NVJPG1_ACTIVE 1026
DCGM_FI_PROF_NVJPG2_ACTIVE 1027
DCGM_FI_PROF_NVJPG3_ACTIVE 1028
DCGM_FI_PROF_NVJPG4_ACTIVE 1029
DCGM_FI_PROF_NVJPG5_ACTIVE 1030
DCGM_FI_PROF_NVJPG6_ACTIVE 1031
DCGM_FI_PROF_NVJPG7_ACTIVE 1032
DCGM_FI_PROF_NVOFA0_ACTIVE 1033

每个 NVOFA 引擎处于活动状态的周期比率。

DCGM_FI_PROF_NVOFA1_ACTIVE 1034

每个链接的活动 NvLink TX(发送)或 RX(发送)数据的字节数,包括头部和有效负载。

例如:DCGM_FI_PROF_NVLINK_L0_TX_BYTES -> L0 TX 要获得链接的带宽,请将 RX 和 TX 值加在一起,例如 total = DCGM_FI_PROF_NVLINK_L0_TX_BYTES + DCGM_FI_PROF_NVLINK_L0_RX_BYTES

NVLink 吞吐量起始。

NVLink 吞吐量结束。

DCGM_FI_PROF_C2C_TX_ALL_BYTES 1076

C2C(芯片到芯片)接口指标。

DCGM_FI_PROF_C2C_TX_DATA_BYTES 1077
DCGM_FI_PROF_C2C_RX_ALL_BYTES 1078
DCGM_FI_PROF_C2C_RX_DATA_BYTES 1079
DCGM_FI_DEV_CPU_UTIL_TOTAL 1100

CPU 利用率,总计。

DCGM_FI_DEV_CPU_UTIL_USER 1101

CPU 利用率,用户。

DCGM_FI_DEV_CPU_UTIL_NICE 1102

CPU 利用率,nice。

DCGM_FI_DEV_CPU_UTIL_SYS 1103

CPU 利用率,系统时间。

DCGM_FI_DEV_CPU_UTIL_IRQ 1104

CPU 利用率,中断服务。

DCGM_FI_DEV_CPU_TEMP_CURRENT 1110

CPU 温度。

DCGM_FI_DEV_CPU_TEMP_WARNING 1111

CPU 警告温度。

DCGM_FI_DEV_CPU_TEMP_CRITICAL 1112

CPU 临界温度。

DCGM_FI_DEV_CPU_CLOCK_CURRENT 1120

CPU 瞬时时钟速度。

DCGM_FI_DEV_CPU_POWER_UTIL_CURRENT 1130

CPU 功耗利用率。

DCGM_FI_DEV_CPU_POWER_LIMIT 1131

CPU 功耗限制。

DCGM_FI_DEV_SYSIO_POWER_UTIL_CURRENT 1132

SoC 功耗利用率。

DCGM_FI_DEV_MODULE_POWER_UTIL_CURRENT 1133

模块功耗利用率。

DCGM_FI_DEV_CPU_VENDOR 1140

CPU 供应商名称。

DCGM_FI_DEV_CPU_MODEL 1141

CPU 型号名称。

NVLink5 链路上的总发送数据包数。

NVLink5 链路上的总发送字节数。

NVLink5 链路上的总接收数据包数。

NVLink5 链路上的总接收字节数。

链路接收到的数据包中,数据包格式错误的数量。

由于缓冲区溢出,接收时丢弃的数据包数量。

链路上接收到的错误数据包总数。

接收到的数据包总数 - 冲突/EBP 标记。

接收到的包头不匹配的数据包总数。

本地错误计数超过阈值的总次数。

丢弃的发送错误数据包总数。

链路从正常运行到恢复,成功并恢复正常的次数。

链路从正常运行到恢复,失败并声明链路断开的次数。

链路从正常运行到恢复的次数,无论结果如何。

接收符号中的错误数。

符号错误的误码率(BER)。

DCGM_FI_DEV_FIRST_CONNECTX_FIELD_ID 1300

ConnectX 的第一个字段 ID。

DCGM_FI_DEV_CONNECTX_HEALTH 1300

ConnectX 的健康状态。

活动的 PCIe 链路宽度。

活动的 PCIe 链路速度。

期望的 PCIe 链路宽度。

期望的 PCIe 链路速度。

DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_STATUS 1305

可纠正错误状态。

DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_MASK 1306

可纠正错误掩码。

DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_STATUS 1307

不可纠正错误状态。

DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_MASK 1308

不可纠正错误掩码。

DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_SEVERITY 1309

不可纠正错误严重性。

DCGM_FI_DEV_CONNECTX_DEVICE_TEMPERATURE 1310

设备温度。

DCGM_FI_DEV_LAST_CONNECTX_FIELD_ID 1399

ConnectX 的最后一个字段 ID。

DCGM_FI_MAX_FIELDS 1311

比上述最大字段数大 1。

这比可以分配的最大字段 ID 大 1

函数

dcgm_field_meta_p DcgmFieldGetById(unsigned short fieldId)

通过字段 ID 获取指向字段元数据的指针。

有关字段 ID 列表,请参阅 DCGM_FI_?。

参数:

fieldId – 输入:字段 ID 之一 (DCGM_FI_?)

返回值:

0 表示失败;>0 表示指向找到的字段元数据结构的指针。

dcgm_field_meta_p DcgmFieldGetByTag(const char *tag)

通过字段标签获取指向字段元数据的指针。

参数:

tag – 输入:感兴趣字段的标签

返回值:

0 表示失败或未找到;>0 表示指向找到的字段元数据结构的指针

int DcgmFieldsInit(void)

初始化 DcgmFields 模块。

在程序内部调用一次

返回值:

0 表示成功;<0 表示错误

int DcgmFieldsTerm(void)

终止 DcgmFields 模块。

在程序内部调用一次

返回值:

0 表示成功;<0 表示错误

const char *DcgmFieldsGetEntityGroupString(dcgm_field_entity_group_t entityGroupId)

获取 entityGroupId 的字符串版本。

返回值:

  • 指向类似于 GPU/NvSwitch..等的字符串

  • 错误时为空