字段标识符
- group dcgmFieldIdentifiers
字段标识符。
定义
-
DCGM_FI_UNKNOWN 0
NULL 字段。
-
DCGM_FI_DRIVER_VERSION 1
驱动程序版本。
-
DCGM_FI_NVML_VERSION 2
-
DCGM_FI_PROCESS_NAME 3
-
DCGM_FI_DEV_COUNT 4
节点上的设备数量。
-
DCGM_FI_CUDA_DRIVER_VERSION 5
CUDA 驱动程序版本检索一个数字,其中主要值在千位,次要值在百位。
CUDA 11.1 = 11100
-
DCGM_FI_DEV_NAME 50
GPU 设备名称。
-
DCGM_FI_DEV_BRAND 51
设备品牌。
-
DCGM_FI_DEV_NVML_INDEX 52
此 GPU 的 NVML 索引。
-
DCGM_FI_DEV_SERIAL 53
设备序列号。
-
DCGM_FI_DEV_UUID 54
与设备对应的 UUID。
-
DCGM_FI_DEV_MINOR_NUMBER 55
设备节点次要号码 /dev/nvidia#。
-
DCGM_FI_DEV_OEM_INFOROM_VER 56
OEM inforom 版本。
-
DCGM_FI_DEV_PCI_BUSID 57
设备的 PCI 属性。
-
DCGM_FI_DEV_PCI_COMBINED_ID 58
组合的 16 位设备 ID 和 16 位供应商 ID。
-
DCGM_FI_DEV_PCI_SUBSYS_ID 59
32 位子系统设备 ID。
-
DCGM_FI_GPU_TOPOLOGY_PCI 60
系统上所有 GPU 通过 PCI 的拓扑结构(静态)
-
DCGM_FI_GPU_TOPOLOGY_NVLINK 61
系统上所有 GPU 通过 NVLINK 的拓扑结构(静态)
-
DCGM_FI_GPU_TOPOLOGY_AFFINITY 62
系统上所有 GPU 的亲缘性(静态)
-
DCGM_FI_DEV_CUDA_COMPUTE_CAPABILITY 63
设备的 Cuda 计算能力。
主版本是高 32 位,次版本是低 32 位。
-
DCGM_FI_DEV_COMPUTE_MODE 65
设备的计算模式。
-
DCGM_FI_DEV_PERSISTENCE_MODE 66
设备的持久模式 布尔值:0 表示禁用,1 表示启用。
-
DCGM_FI_DEV_MIG_MODE 67
设备的 MIG 模式 布尔值:0 表示禁用,1 表示启用。
-
DCGM_FI_DEV_CUDA_VISIBLE_DEVICES_STR 68
CUDA_VISIBLE_DEVICES 应该为此实体设置的字符串(包括 MIG)
-
DCGM_FI_DEV_MIG_MAX_SLICES 69
此 GPU 支持的最大 MIG 切片数。
-
DCGM_FI_DEV_CPU_AFFINITY_0 70
设备 CPU 亲缘性。
第 1/8 部分 = cpu 0 - 63
-
DCGM_FI_DEV_CPU_AFFINITY_1 71
设备 CPU 亲缘性。
第 1/8 部分 = cpu 64 - 127
-
DCGM_FI_DEV_CPU_AFFINITY_2 72
设备 CPU 亲缘性。
第 2/8 部分 = cpu 128 - 191
-
DCGM_FI_DEV_CPU_AFFINITY_3 73
设备 CPU 亲缘性。
第 3/8 部分 = cpu 192 - 255
-
DCGM_FI_DEV_CC_MODE 74
此系统的保密计算/安培保护内存状态 0 = 禁用 1 = 启用。
-
DCGM_FI_DEV_MIG_ATTRIBUTES 75
给定 MIG 设备句柄的属性。
-
DCGM_FI_DEV_MIG_GI_INFO 76
GPU 实例配置文件信息。
-
DCGM_FI_DEV_MIG_CI_INFO 77
计算实例配置文件信息。
-
DCGM_FI_DEV_ECC_INFOROM_VER 80
ECC inforom 版本。
-
DCGM_FI_DEV_POWER_INFOROM_VER 81
电源管理对象 inforom 版本。
-
DCGM_FI_DEV_INFOROM_IMAGE_VER 82
Inforom 镜像版本。
-
DCGM_FI_DEV_INFOROM_CONFIG_CHECK 83
Inforom 配置校验和。
-
DCGM_FI_DEV_INFOROM_CONFIG_VALID 84
从闪存读取 infoROM 并验证校验和。
-
DCGM_FI_DEV_VBIOS_VERSION 85
设备的 VBIOS 版本。
-
DCGM_FI_DEV_MEM_AFFINITY_0 86
设备内存节点亲缘性,0-63。
-
DCGM_FI_DEV_MEM_AFFINITY_1 87
设备内存节点亲缘性,64-127。
-
DCGM_FI_DEV_MEM_AFFINITY_2 88
设备内存节点亲缘性,128-191。
-
DCGM_FI_DEV_MEM_AFFINITY_3 89
设备内存节点亲缘性,192-255。
-
DCGM_FI_DEV_BAR1_TOTAL 90
GPU 的总 BAR1,单位为 MB。
-
DCGM_FI_SYNC_BOOST 91
已弃用 - 节点上的同步加速设置。
-
DCGM_FI_DEV_BAR1_USED 92
GPU 已用 BAR1,单位为 MB。
-
DCGM_FI_DEV_BAR1_FREE 93
GPU 可用 BAR1,单位为 MB。
-
DCGM_FI_DEV_GPM_SUPPORT 94
设备对 GPM 的支持
-
DCGM_FI_DEV_SM_CLOCK 100
设备的 SM 时钟。
-
DCGM_FI_DEV_MEM_CLOCK 101
设备的显存时钟。
-
DCGM_FI_DEV_VIDEO_CLOCK 102
设备的视频编码器/解码器时钟。
-
DCGM_FI_DEV_APP_SM_CLOCK 110
SM 应用程序时钟。
-
DCGM_FI_DEV_APP_MEM_CLOCK 111
显存应用程序时钟。
-
DCGM_FI_DEV_CLOCKS_EVENT_REASONS 112
当前时钟事件原因(DCGM_CLOCKS_EVENT_REASON_* 的位掩码)
-
DCGM_FI_DEV_CLOCK_THROTTLE_REASONS DCGM_FI_DEV_CLOCKS_EVENT_REASONS
已弃用:请改用 DCGM_FI_DEV_CLOCKS_EVENT_REASONS。
-
DCGM_FI_DEV_MAX_SM_CLOCK 113
设备支持的最大 SM 时钟。
-
DCGM_FI_DEV_MAX_MEM_CLOCK 114
设备支持的最大显存时钟。
-
DCGM_FI_DEV_MAX_VIDEO_CLOCK 115
设备支持的最大视频编码器/解码器时钟。
-
DCGM_FI_DEV_AUTOBOOST 120
设备的自动加速 (1 = 已启用。
0 = 已禁用)
-
DCGM_FI_DEV_SUPPORTED_CLOCKS 130
设备支持的时钟。
-
DCGM_FI_DEV_MEMORY_TEMP 140
设备的显存温度。
-
DCGM_FI_DEV_GPU_TEMP 150
设备的当前温度读数,单位为摄氏度。
-
DCGM_FI_DEV_MEM_MAX_OP_TEMP 151
此 GPU 显存的最大工作温度。
-
DCGM_FI_DEV_GPU_MAX_OP_TEMP 152
此 GPU 的最大工作温度。
-
DCGM_FI_DEV_GPU_TEMP_LIMIT 153
此 GPU 的热裕量温度(到最近减速阈值的距离)。
-
DCGM_FI_DEV_POWER_USAGE 155
设备的功耗,单位为瓦特。
-
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION 156
自上次重新加载驱动程序以来,GPU 的总能耗,单位为毫焦耳。
-
DCGM_FI_DEV_POWER_USAGE_INSTANT 157
设备当前的瞬时功耗,单位为瓦特。
-
DCGM_FI_DEV_SLOWDOWN_TEMP 158
设备的减速温度。
-
DCGM_FI_DEV_SHUTDOWN_TEMP 159
设备的关机温度。
-
DCGM_FI_DEV_POWER_MGMT_LIMIT 160
设备当前的功率限制。
-
DCGM_FI_DEV_POWER_MGMT_LIMIT_MIN 161
设备的最小功率管理限制。
-
DCGM_FI_DEV_POWER_MGMT_LIMIT_MAX 162
设备的最大功率管理限制。
-
DCGM_FI_DEV_POWER_MGMT_LIMIT_DEF 163
设备的默认功率管理限制。
-
DCGM_FI_DEV_ENFORCED_POWER_LIMIT 164
驱动程序在考虑所有限制器后强制执行的有效功率限制。
-
DCGM_FI_DEV_REQUESTED_POWER_PROFILE_MASK 165
请求的工作负载功率配置文件掩码(Blackwell 及更新版本)
-
DCGM_FI_DEV_ENFORCED_POWER_PROFILE_MASK 166
强制执行的工作负载功率配置文件掩码(Blackwell 及更新版本)
-
DCGM_FI_DEV_VALID_POWER_PROFILE_MASK 167
请求的工作负载功率配置文件掩码(Blackwell 及更新版本)
-
DCGM_FI_DEV_FABRIC_MANAGER_STATUS 170
Fabric Manager 的状态 - 来自 dcgmFabricManagerStatus_t 的值。
-
DCGM_FI_DEV_FABRIC_MANAGER_ERROR_CODE 171
启动 Fabric Manager 时发生的故障(如果有)。注意:除非 Fabric Manager 完成启动,否则不会填充此项。
-
DCGM_FI_DEV_FABRIC_CLUSTER_UUID 172
此 GPU 所属集群的 UUID。
-
DCGM_FI_DEV_FABRIC_CLIQUE_ID 173
此 GPU 所属 Fabric Clique 的 ID。
-
DCGM_FI_DEV_PSTATE 190
性能状态 (P 状态) 0-15。
0=最高
-
DCGM_FI_DEV_FAN_SPEED 191
设备的风扇速度,百分比为 0-100。
-
DCGM_FI_DEV_PCIE_TX_THROUGHPUT 200
PCIe Tx 利用率信息。
已弃用:请改用 DCGM_FI_PROF_PCIE_TX_BYTES。
-
DCGM_FI_DEV_PCIE_RX_THROUGHPUT 201
PCIe Rx 利用率信息。
已弃用:请改用 DCGM_FI_PROF_PCIE_RX_BYTES。
-
DCGM_FI_DEV_PCIE_REPLAY_COUNTER 202
PCIe 重放计数器。
-
DCGM_FI_DEV_GPU_UTIL 203
GPU 利用率。
-
DCGM_FI_DEV_MEM_COPY_UTIL 204
显存利用率。
-
DCGM_FI_DEV_ACCOUNTING_DATA 205
进程记帐统计信息。
仅当主机引擎以 root 身份运行时才支持此字段,除非您提前启用记帐。可以通过以 root 身份在主机引擎运行的同一节点上运行 “nvidia-smi -am 1” 来启用记帐模式。
-
DCGM_FI_DEV_ENC_UTIL 206
编码器利用率。
-
DCGM_FI_DEV_DEC_UTIL 207
解码器利用率。
-
DCGM_FI_DEV_XID_ERRORS 230
XID 错误。
该值是特定的 XID 错误
-
DCGM_FI_DEV_PCIE_MAX_LINK_GEN 235
PCIe 最大链路代数。
-
DCGM_FI_DEV_PCIE_MAX_LINK_WIDTH 236
PCIe 最大链路宽度。
-
DCGM_FI_DEV_PCIE_LINK_GEN 237
PCIe 当前链路代数。
-
DCGM_FI_DEV_PCIE_LINK_WIDTH 238
PCIe 当前链路宽度。
-
DCGM_FI_DEV_POWER_VIOLATION 240
功率违规时间,单位为纳秒。
-
DCGM_FI_DEV_THERMAL_VIOLATION 241
热违规时间,单位为纳秒。
-
DCGM_FI_DEV_SYNC_BOOST_VIOLATION 242
同步加速违规时间,单位为纳秒。
-
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION 243
板级违规限制。
-
DCGM_FI_DEV_LOW_UTIL_VIOLATION 244
低利用率违规限制。
-
DCGM_FI_DEV_RELIABILITY_VIOLATION 245
可靠性违规限制。
-
DCGM_FI_DEV_TOTAL_APP_CLOCKS_VIOLATION 246
应用程序时钟违规限制。
-
DCGM_FI_DEV_TOTAL_BASE_CLOCKS_VIOLATION 247
基本时钟违规限制。
-
DCGM_FI_DEV_FB_TOTAL 250
GPU 的总帧缓冲区,单位为 MB。
-
DCGM_FI_DEV_FB_FREE 251
空闲帧缓冲区,单位为 MB。
-
DCGM_FI_DEV_FB_USED 252
已用帧缓冲区,单位为 MB。
-
DCGM_FI_DEV_FB_RESERVED 253
保留帧缓冲区,单位为 MB。
-
DCGM_FI_DEV_FB_USED_PERCENT 254
帧缓冲区的已用百分比:“已用/(总计 - 保留)”。
范围 0.0-1.0
-
DCGM_FI_DEV_C2C_LINK_COUNT 285
C2C 链路计数。
-
DCGM_FI_DEV_C2C_LINK_STATUS 286
C2C 链路状态。值为 0 表示链路处于 INACTIVE 状态。
值为 1 表示链路处于 ACTIVE 状态。
-
DCGM_FI_DEV_C2C_MAX_BANDWIDTH 287
C2C 最大带宽。该值表示链路速度,单位为 MB/秒。
-
DCGM_FI_DEV_ECC_CURRENT 300
设备当前的 ECC 模式。
-
DCGM_FI_DEV_ECC_PENDING 301
设备待定的 ECC 模式。
-
DCGM_FI_DEV_ECC_SBE_VOL_TOTAL 310
单比特易失性 ECC 错误总数。
-
DCGM_FI_DEV_ECC_DBE_VOL_TOTAL 311
双比特易失性 ECC 错误总数。
-
DCGM_FI_DEV_ECC_SBE_AGG_TOTAL 312
单比特聚合(持久性)ECC 错误总数。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_TOTAL 313
双比特聚合(持久性)ECC 错误总数。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_VOL_L1 314
L1 缓存单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_L1 315
L1 缓存双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_L2 316
L2 缓存单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_L2 317
L2 缓存双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_DEV 318
设备内存单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_DEV 319
设备内存双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_REG 320
寄存器文件单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_REG 321
寄存器文件双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_TEX 322
纹理内存单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_TEX 323
纹理内存双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_AGG_L1 324
L1 缓存单比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_L1 325
L1 缓存双比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_AGG_L2 326
L2 缓存单比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_L2 327
L2 缓存双比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_AGG_DEV 328
设备内存单比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_DEV 329
设备内存双比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_AGG_REG 330
寄存器文件单比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_REG 331
寄存器文件双比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_AGG_TEX 332
纹理内存单比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_DBE_AGG_TEX 333
纹理内存双比特聚合(持久性)ECC 错误。注意:单调递增。
-
DCGM_FI_DEV_ECC_SBE_VOL_SHM 334
纹理 SHM 单比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_SHM 335
纹理 SHM 双比特易失性 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_CBU 336
CBU 单比特 ECC 易失性错误。
-
DCGM_FI_DEV_ECC_DBE_VOL_CBU 337
CBU 双比特 ECC 易失性错误。
-
DCGM_FI_DEV_ECC_SBE_AGG_SHM 338
纹理 SHM 单比特聚合 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_AGG_SHM 339
纹理 SHM 双比特聚合 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_AGG_CBU 340
CBU 单比特聚合 ECC 错误。
-
DCGM_FI_DEV_ECC_DBE_AGG_CBU 341
CBU 双比特聚合 ECC 错误。
-
DCGM_FI_DEV_ECC_SBE_VOL_SRM 342
图灵及更高版本字段。
SRAM 单比特 ECC 易失性错误
-
DCGM_FI_DEV_ECC_DBE_VOL_SRM 343
SRAM 双比特 ECC 易失性错误。
-
DCGM_FI_DEV_ECC_SBE_AGG_SRM 344
SRAM 单比特 ECC 聚合错误。
-
DCGM_FI_DEV_ECC_DBE_AGG_SRM 345
SRAM 双比特 ECC 聚合错误。
-
DCGM_FI_DEV_DIAG_MEMORY_RESULT 350
GPU 内存测试的结果。指的是存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_DIAGNOSTIC_RESULT 351
诊断测试的结果。指的是存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_PCIE_RESULT 352
PCIe + NVLink 测试的结果。指的是存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_TARGETED_STRESS_RESULT 353
目标压力测试的结果。指的是存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_TARGETED_POWER_RESULT 354
目标功率测试的结果。指的是存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_MEMORY_BANDWIDTH_RESULT 355
内存带宽测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_MEMTEST_RESULT 356
内存压力测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_PULSE_TEST_RESULT 357
输入能量延迟乘积功率 (EDPp) 测试的结果(也称为
脉冲测试)。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_EUD_RESULT 358
扩展实用程序诊断 (EUD) 测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_CPU_EUD_RESULT 359
CPU 扩展实用程序诊断 (CPU EUD) 测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_SOFTWARE_RESULT 360
软件测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_NVBANDWIDTH_RESULT 361
NVBandwidth 测试的结果。指存储从
dcgmError_t
枚举中提取的值的int64_t
。
-
DCGM_FI_DEV_DIAG_STATUS 362
-
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_MAX 385
每个内存库的历史最大可用备用内存行数。
-
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_HIGH 386
每个内存库的历史最高可用备用内存行数标记。
-
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_PARTIAL 387
每个内存库的部分可用备用内存行数的历史标记。
-
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_LOW 388
每个内存库的历史最低可用备用内存行数标记。
-
DCGM_FI_DEV_BANKS_REMAP_ROWS_AVAIL_NONE 389
没有可用备用内存行的内存库的历史标记。
-
DCGM_FI_DEV_RETIRED_SBE 390
由于单位错误而停用的页面数。注意:单调递增。
-
DCGM_FI_DEV_RETIRED_DBE 391
由于双位错误而停用的页面数。注意:单调递增。
-
DCGM_FI_DEV_RETIRED_PENDING 392
等待停用的页面数。
-
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS 393
针对不可纠正错误重新映射的行数。
-
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS 394
针对可纠正错误重新映射的行数。
-
DCGM_FI_DEV_ROW_REMAP_FAILURE 395
行的重新映射是否失败。
-
DCGM_FI_DEV_ROW_REMAP_PENDING 396
行的重新映射是否正在进行中。
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L0 400
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L1 401
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L2 402
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L3 403
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L4 404
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L5 405
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_TOTAL 409
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L0 410
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L1 411
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L2 412
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L3 413
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L4 414
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L5 415
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_TOTAL 419
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L0 420
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L1 421
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L2 422
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L3 423
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L4 424
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L5 425
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL 429
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L0 430
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L1 431
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L2 432
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L3 433
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L4 434
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L5 435
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL 439
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L0 440
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L1 441
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L2 442
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L3 443
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L4 444
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L5 445
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL 449
-
DCGM_FI_DEV_GPU_NVLINK_ERRORS 450
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L6 451
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L7 452
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L8 453
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L9 454
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L10 455
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L11 456
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L6 457
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L7 458
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L8 459
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L9 460
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L10 461
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L11 462
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L6 463
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L7 464
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L8 465
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L9 466
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L10 467
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L11 468
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L6 469
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L7 470
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L8 471
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L9 472
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L10 473
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L11 474
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L6 475
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L7 476
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L8 477
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L9 478
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L10 479
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L11 480
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L12 406
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L13 407
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L14 408
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L15 481
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L16 482
-
DCGM_FI_DEV_NVLINK_CRC_FLIT_ERROR_COUNT_L17 483
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L12 416
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L13 417
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L14 418
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L15 484
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L16 485
-
DCGM_FI_DEV_NVLINK_CRC_DATA_ERROR_COUNT_L17 486
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L12 426
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L13 427
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L14 428
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L15 487
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L16 488
-
DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_L17 489
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L12 436
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L13 437
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L14 438
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L15 491
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L16 492
-
DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_L17 493
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L12 446
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L13 447
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L14 448
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L15 494
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L16 495
-
DCGM_FI_DEV_NVLINK_BANDWIDTH_L17 496
-
DCGM_FI_DEV_NVLINK_ERROR_DL_CRC 497
-
DCGM_FI_DEV_NVLINK_ERROR_DL_RECOVERY 498
-
DCGM_FI_DEV_NVLINK_ERROR_DL_REPLAY 499
-
DCGM_FI_DEV_VIRTUAL_MODE 500
与 GPU 对应的虚拟化模式。
DCGM_GPU_VIRTUALIZATION_MODE_* 常量之一。
-
DCGM_FI_DEV_SUPPORTED_TYPE_INFO 501
包括设备上支持的 vGPU 类型的计数和静态信息。
-
DCGM_FI_DEV_CREATABLE_VGPU_TYPE_IDS 502
包括设备上当前可创建的 vGPU 类型计数。
-
DCGM_FI_DEV_VGPU_INSTANCE_IDS 503
包括设备上当前活动的 vGPU 实例计数。
-
DCGM_FI_DEV_VGPU_UTILIZATIONS 504
设备上运行的 vGPU 的利用率值。
-
DCGM_FI_DEV_VGPU_PER_PROCESS_UTILIZATION 505
使用该设备的 vGPU VM 中运行的进程的利用率值。
-
DCGM_FI_DEV_ENC_STATS 506
给定设备的当前编码器统计信息。
-
DCGM_FI_DEV_FBC_STATS 507
给定设备上当前活动帧缓冲区捕获会话的统计信息。
-
DCGM_FI_DEV_FBC_SESSIONS_INFO 508
有关目标设备上活动帧缓冲区捕获会话的信息。
-
DCGM_FI_DEV_SUPPORTED_VGPU_TYPE_IDS 509
包括设备上计数和当前支持的 vGPU 类型。
-
DCGM_FI_DEV_VGPU_TYPE_INFO 510
包括设备上支持的 vGPU 类型的静态信息。
-
DCGM_FI_DEV_VGPU_TYPE_NAME 511
包括设备上支持的 vGPU 类型的名称。
-
DCGM_FI_DEV_VGPU_TYPE_CLASS 512
包括设备上支持的 vGPU 类型的类别。
-
DCGM_FI_DEV_VGPU_TYPE_LICENSE 513
包括设备上支持的 vGPU 类型的许可证信息。
-
DCGM_FI_DEV_VGPU_VM_ID 520
vGPU 实例的虚拟机 ID。
-
DCGM_FI_DEV_VGPU_VM_NAME 521
vGPU 实例的虚拟机名称。
-
DCGM_FI_DEV_VGPU_TYPE 522
vGPU 实例的 vGPU 类型
-
DCGM_FI_DEV_VGPU_UUID 523
vGPU 实例的 UUID。
-
DCGM_FI_DEV_VGPU_DRIVER_VERSION 524
vGPU 实例的驱动程序版本。
-
DCGM_FI_DEV_VGPU_MEMORY_USAGE 525
vGPU 实例的内存使用量。
-
DCGM_FI_DEV_VGPU_LICENSE_STATUS 526
vGPU 的许可证状态。
0 = vgpu 未获得许可
1 = vgpu 已获得许可
-
DCGM_FI_DEV_VGPU_FRAME_RATE_LIMIT 527
vGPU 实例的帧率限制。
-
DCGM_FI_DEV_VGPU_ENC_STATS 528
vGPU 实例的当前编码器统计信息。
-
DCGM_FI_DEV_VGPU_ENC_SESSIONS_INFO 529
有关 vGPU 实例上所有活动编码器会话的信息。
-
DCGM_FI_DEV_VGPU_FBC_STATS 530
vGPU 实例上当前活动帧缓冲区捕获会话的统计信息。
-
DCGM_FI_DEV_VGPU_FBC_SESSIONS_INFO 531
有关 vGPU 实例上活动帧缓冲区捕获会话的信息。
-
DCGM_FI_DEV_VGPU_INSTANCE_LICENSE_STATE 532
vGPU 实例的许可证状态信息。
-
DCGM_FI_DEV_VGPU_PCI_ID 533
vGPU 实例的 PCI ID。
-
DCGM_FI_DEV_VGPU_VM_GPU_INSTANCE_ID 534
给定 vGPU 实例的 GPU 实例 ID。
-
DCGM_FI_FIRST_VGPU_FIELD_ID 520
vGPU 实例的起始字段 ID。
-
DCGM_FI_LAST_VGPU_FIELD_ID 570
vGPU 实例的最后一个字段 ID。
-
DCGM_FI_MAX_VGPU_FIELDS DCGM_FI_LAST_VGPU_FIELD_ID - DCGM_FI_FIRST_VGPU_FIELD_ID
目前,最大 vGPU 字段 ID 取为 DCGM_FI_LAST_VGPU_FIELD_ID 和 DCGM_FI_LAST_VGPU_FIELD_ID 的差值,即:
50
-
DCGM_FI_DEV_PLATFORM_INFINIBAND_GUID 571
Infiniband GUID 字符串 (例如
xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
-
DCGM_FI_DEV_PLATFORM_CHASSIS_SERIAL_NUMBER 572
包含此 GPU 的机箱的序列号。
-
DCGM_FI_DEV_PLATFORM_CHASSIS_SLOT_NUMBER 573
包含 GPU 的机架中的插槽号(包括交换机)
-
DCGM_FI_DEV_PLATFORM_TRAY_INDEX 574
包含此 GPU 的机箱中计算插槽内的托盘索引(不包括交换机)
-
DCGM_FI_DEV_PLATFORM_HOST_ID 575
包含 GPU 的插槽内的节点索引。
-
DCGM_FI_DEV_PLATFORM_PEER_TYPE 576
平台指示的 NVLink 对等类型(例如
是否存在交换机)
-
DCGM_FI_DEV_PLATFORM_MODULE_ID 577
节点内 GPU 的 ID。
-
DCGM_FI_INTERNAL_FIELDS_0_START 600
所有内部字段的起始 ID。
-
DCGM_FI_INTERNAL_FIELDS_0_END 699
所有内部字段的最后一个 ID。
NVSwitch 实体字段 ID 从此处开始。
端口 0 的 NVSwitch 延迟 bins
-
DCGM_FI_FIRST_NVSWITCH_FIELD_ID 700
NVSwitch 实例的起始字段 ID。
-
DCGM_FI_DEV_NVSWITCH_VOLTAGE_MVOLT 701
NvSwitch 电压。
-
DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ 702
NvSwitch 电流 IDDQ。
-
DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ_REV 703
NvSwitch 电流 IDDQ Rev。
-
DCGM_FI_DEV_NVSWITCH_CURRENT_IDDQ_DVDD 704
NvSwitch 电流 IDDQ Rev DVDD。
-
DCGM_FI_DEV_NVSWITCH_POWER_VDD 705
NvSwitch 功率 VDD,单位为瓦特。
-
DCGM_FI_DEV_NVSWITCH_POWER_DVDD 706
NvSwitch 功率 DVDD,单位为瓦特。
-
DCGM_FI_DEV_NVSWITCH_POWER_HVDD 707
NvSwitch 功率 HVDD,单位为瓦特。
-
DCGM_FI_DEV_NVSWITCH_LINK_THROUGHPUT_TX 780
端口 0-17 的 NVSwitch Tx 吞吐量计数器
-
DCGM_FI_DEV_NVSWITCH_LINK_THROUGHPUT_RX 781
端口 0-17 的 NVSwitch Rx 吞吐量计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_FATAL_ERRORS 782
端口 0-17 的 NvSwitch fatal_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_NON_FATAL_ERRORS 783
端口 0-17 的 NvSwitch non_fatal_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_REPLAY_ERRORS 784
端口 0-17 的 NvSwitch replay_count_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_RECOVERY_ERRORS 785
端口 0-17 的 NvSwitch recovery_count_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_FLIT_ERRORS 786
端口 0-17 的 NvSwitch filt_err_count_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS 787
端口 0-17 的 NvLink lane_crs_err_count_aggregate_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS 788
端口 0-17 的 NvLink lane ecc_err_count_aggregate_errors。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_LOW_VC0 789
Nvlink 通道延迟低 lane0 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_LOW_VC1 790
Nvlink 通道延迟低 lane1 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_LOW_VC2 791
Nvlink 通道延迟低 lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_LOW_VC3 792
Nvlink 通道延迟低 lane3 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_MEDIUM_VC0 793
Nvlink 通道延迟中 lane0 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_MEDIUM_VC1 794
Nvlink 通道延迟中 lane1 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_MEDIUM_VC2 795
Nvlink 通道延迟中 lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_MEDIUM_VC3 796
Nvlink 通道延迟中 lane3 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_HIGH_VC0 797
Nvlink 通道延迟高 lane0 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_HIGH_VC1 798
Nvlink 通道延迟高 lane1 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_HIGH_VC2 799
Nvlink 通道延迟高 lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_HIGH_VC3 800
Nvlink 通道延迟高 lane3 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_PANIC_VC0 801
Nvlink 通道延迟 panic lane0 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_PANIC_VC1 802
Nvlink 通道延迟 panic lane1 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_PANIC_VC2 803
Nvlink 通道延迟 panic lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_PANIC_VC3 804
Nvlink 通道延迟 panic lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_COUNT_VC0 805
Nvlink 通道延迟计数 lane0 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_COUNT_VC1 806
Nvlink 通道延迟计数 lane1 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_COUNT_VC2 807
Nvlink 通道延迟计数 lane2 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_LATENCY_COUNT_VC3 808
Nvlink 通道延迟计数 lane3 计数器。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE0 809
端口 0-17 上通道 0 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE1 810
端口 0-17 上通道 1 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE2 811
端口 0-17 上通道 2 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE3 812
端口 0-17 上通道 3 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE0 813
端口 0-17 上通道 0 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE1 814
端口 0-17 上通道 1 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE2 815
端口 0-17 上通道 2 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE3 816
端口 0-17 上通道 3 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE4 817
端口 0-17 上通道 4 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE5 818
端口 0-17 上通道 5 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE6 819
端口 0-17 上通道 6 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_CRC_ERRORS_LANE7 820
端口 0-17 上通道 7 的 NvLink 通道 crc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE4 821
端口 0-17 上通道 4 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE5 822
端口 0-17 上通道 5 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE6 823
端口 0-17 上通道 6 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVSWITCH_LINK_ECC_ERRORS_LANE7 824
端口 0-17 上通道 7 的 NvLink 通道 ecc_err_count。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L0 825
通道 0 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L1 826
通道 1 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L2 827
通道 2 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L3 828
通道 3 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L4 829
通道 4 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L5 830
通道 5 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L6 831
通道 6 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L7 832
通道 7 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L8 833
通道 8 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L9 834
通道 9 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L10 835
通道 10 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L11 836
通道 11 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L12 837
通道 12 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L13 838
通道 13 的 NV Link TX 带宽计数器。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L14 839
NVLink TX 带宽计数器,用于通道 14。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L15 840
NVLink TX 带宽计数器,用于通道 15。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L16 841
NVLink TX 带宽计数器,用于通道 16。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L17 842
NVLink TX 带宽计数器,用于通道 17。
-
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_TOTAL 843
NVLink 带宽计数器,所有 TX 通道总计。
-
DCGM_FI_DEV_NVSWITCH_FATAL_ERRORS 856
NVSwitch 致命错误信息。
注意:值字段指示报告的具体 SXid
-
DCGM_FI_DEV_NVSWITCH_NON_FATAL_ERRORS 857
NVSwitch 非致命错误信息。
注意:值字段指示报告的具体 SXid
-
DCGM_FI_DEV_NVSWITCH_TEMPERATURE_CURRENT 858
NVSwitch 当前温度。
-
DCGM_FI_DEV_NVSWITCH_TEMPERATURE_LIMIT_SLOWDOWN 859
NVSwitch 限制减速温度。
-
DCGM_FI_DEV_NVSWITCH_TEMPERATURE_LIMIT_SHUTDOWN 860
NVSwitch 限制关机温度。
-
DCGM_FI_DEV_NVSWITCH_THROUGHPUT_TX 861
NVSwitch 吞吐量 Tx。
-
DCGM_FI_DEV_NVSWITCH_THROUGHPUT_RX 862
NVSwitch 吞吐量 Rx。
-
DCGM_FI_DEV_NVSWITCH_PHYS_ID 863
-
DCGM_FI_DEV_NVSWITCH_RESET_REQUIRED 864
NVSwitch 需要重置。
-
DCGM_FI_DEV_NVSWITCH_LINK_ID 865
NvSwitch NvLink ID。
-
DCGM_FI_DEV_NVSWITCH_PCIE_DOMAIN 866
NVSwitch PCIE 域。
-
DCGM_FI_DEV_NVSWITCH_PCIE_BUS 867
NVSwitch PCIE 总线。
-
DCGM_FI_DEV_NVSWITCH_PCIE_DEVICE 868
NVSwitch PCIE 设备。
-
DCGM_FI_DEV_NVSWITCH_PCIE_FUNCTION 869
NVSwitch PCIE 功能。
-
DCGM_FI_DEV_NVSWITCH_LINK_STATUS 870
NvLink 状态。
未知:-1 关闭:0 安全:1 活跃:2 错误:3
-
DCGM_FI_DEV_NVSWITCH_LINK_TYPE 871
NvLink 设备类型 (GPU/交换机)。
-
DCGM_FI_DEV_NVSWITCH_LINK_REMOTE_PCIE_DOMAIN 872
NvLink 设备 pcie 域。
-
DCGM_FI_DEV_NVSWITCH_LINK_REMOTE_PCIE_BUS 873
NvLink 设备 pcie 总线。
-
DCGM_FI_DEV_NVSWITCH_LINK_REMOTE_PCIE_DEVICE 874
NvLink 设备 pcie 设备。
-
DCGM_FI_DEV_NVSWITCH_LINK_REMOTE_PCIE_FUNCTION 875
NvLink 设备 pcie 功能。
-
DCGM_FI_DEV_NVSWITCH_LINK_DEVICE_LINK_ID 876
NvLink 设备链接 ID。
-
DCGM_FI_DEV_NVSWITCH_LINK_DEVICE_LINK_SID 877
NvLink 设备 SID。
-
DCGM_FI_DEV_NVSWITCH_DEVICE_UUID 878
NvLink 设备交换机/链接 uid。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L0 879
NVLink RX 带宽计数器,用于通道 0。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L1 880
NVLink RX 带宽计数器,用于通道 1。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L2 881
NVLink RX 带宽计数器,用于通道 2。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L3 882
NVLink RX 带宽计数器,用于通道 3。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L4 883
NVLink RX 带宽计数器,用于通道 4。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L5 884
NVLink RX 带宽计数器,用于通道 5。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L6 885
NVLink RX 带宽计数器,用于通道 6。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L7 886
NVLink RX 带宽计数器,用于通道 7。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L8 887
NVLink RX 带宽计数器,用于通道 8。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L9 888
NVLink RX 带宽计数器,用于通道 9。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L10 889
NVLink RX 带宽计数器,用于通道 10。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L11 890
NVLink RX 带宽计数器,用于通道 11。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L12 891
NVLink RX 带宽计数器,用于通道 12。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L13 892
NVLink RX 带宽计数器,用于通道 13。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L14 893
NVLink RX 带宽计数器,用于通道 14。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L15 894
NVLink RX 带宽计数器,用于通道 15。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L16 895
NVLink RX 带宽计数器,用于通道 16。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L17 896
NVLink RX 带宽计数器,用于通道 17。
-
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_TOTAL 897
NVLink 带宽计数器,所有 RX 通道总计。
-
DCGM_FI_LAST_NVSWITCH_FIELD_ID 899
NVSwitch 实例的最后一个字段 ID。
-
DCGM_FI_MAX_NVSWITCH_FIELDS DCGM_FI_LAST_NVSWITCH_FIELD_ID - DCGM_FI_FIRST_NVSWITCH_FIELD_ID + 1
目前,NVSwitch 最大字段 ID 取 DCGM_FI_LAST_NVSWITCH_FIELD_ID 和 DCGM_FI_FIRST_NVSWITCH_FIELD_ID + 1 的差值,即
200
-
DCGM_FI_PROF_GR_ENGINE_ACTIVE 1001
性能分析字段。
这些都以 DCGM_FI_PROF_* 开头。图形引擎处于活动状态的时间比率。如果绑定了图形/计算上下文,并且图形管道或计算管道正忙,则图形引擎处于活动状态。
-
DCGM_FI_PROF_SM_ACTIVE 1002
SM 至少分配了 1 个 warp 的周期比率(根据周期数和经过的周期数计算)。
-
DCGM_FI_PROF_SM_OCCUPANCY 1003
SM 上驻留的 warp 数量的比率。
(驻留数量与每个经过周期内 warp 的理论最大数量的比率)
-
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE 1004
任何张量管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。
-
DCGM_FI_PROF_DRAM_ACTIVE 1005
设备内存接口处于活动状态发送或接收数据的周期比率。
-
DCGM_FI_PROF_PIPE_FP64_ACTIVE 1006
fp64 管道处于活动状态的周期比率。
-
DCGM_FI_PROF_PIPE_FP32_ACTIVE 1007
fp32 管道处于活动状态的周期比率。
-
DCGM_FI_PROF_PIPE_FP16_ACTIVE 1008
fp16 管道处于活动状态的周期比率。
这不包括 HMMA。
-
DCGM_FI_PROF_PCIE_TX_BYTES 1009
活动 PCIe tx(发送)数据的字节数,包括头部和有效负载。
注意:这是从 GPU 的角度来看的,因此将数据从设备复制到主机 (DtoH) 将反映在此指标中。
-
DCGM_FI_PROF_PCIE_RX_BYTES 1010
活动 PCIe rx(读取)数据的字节数,包括头部和有效负载。
注意:这是从 GPU 的角度来看的,因此将数据从主机复制到设备 (HtoD) 将反映在此指标中。
-
DCGM_FI_PROF_NVLINK_TX_BYTES 1011
活动 NvLink tx(发送)数据的总字节数,包括头部和有效负载。
每个链接的字段在下面提供
-
DCGM_FI_PROF_NVLINK_RX_BYTES 1012
活动 NvLink rx(读取)数据的总字节数,包括头部和有效负载。
每个链接的字段在下面提供
-
DCGM_FI_PROF_PIPE_TENSOR_IMMA_ACTIVE 1013
张量 (IMMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。
-
DCGM_FI_PROF_PIPE_TENSOR_HMMA_ACTIVE 1014
张量 (HMMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。
-
DCGM_FI_PROF_PIPE_TENSOR_DFMA_ACTIVE 1015
张量 (DFMA) 管道处于活动状态的周期比率(从峰值持续经过的周期数计算)。
-
DCGM_FI_PROF_PIPE_INT_ACTIVE 1016
整数管道处于活动状态的周期比率。
-
DCGM_FI_PROF_NVDEC0_ACTIVE 1017
每个 NVDEC 引擎处于活动状态的周期比率。
-
DCGM_FI_PROF_NVDEC1_ACTIVE 1018
-
DCGM_FI_PROF_NVDEC2_ACTIVE 1019
-
DCGM_FI_PROF_NVDEC3_ACTIVE 1020
-
DCGM_FI_PROF_NVDEC4_ACTIVE 1021
-
DCGM_FI_PROF_NVDEC5_ACTIVE 1022
-
DCGM_FI_PROF_NVDEC6_ACTIVE 1023
-
DCGM_FI_PROF_NVDEC7_ACTIVE 1024
-
DCGM_FI_PROF_NVJPG0_ACTIVE 1025
每个 NVJPG 引擎处于活动状态的周期比率。
-
DCGM_FI_PROF_NVJPG1_ACTIVE 1026
-
DCGM_FI_PROF_NVJPG2_ACTIVE 1027
-
DCGM_FI_PROF_NVJPG3_ACTIVE 1028
-
DCGM_FI_PROF_NVJPG4_ACTIVE 1029
-
DCGM_FI_PROF_NVJPG5_ACTIVE 1030
-
DCGM_FI_PROF_NVJPG6_ACTIVE 1031
-
DCGM_FI_PROF_NVJPG7_ACTIVE 1032
-
DCGM_FI_PROF_NVOFA0_ACTIVE 1033
每个 NVOFA 引擎处于活动状态的周期比率。
-
DCGM_FI_PROF_NVOFA1_ACTIVE 1034
-
DCGM_FI_PROF_NVLINK_L0_TX_BYTES 1040
每个链接的活动 NvLink TX(发送)或 RX(发送)数据的字节数,包括头部和有效负载。
例如:DCGM_FI_PROF_NVLINK_L0_TX_BYTES -> L0 TX 要获得链接的带宽,请将 RX 和 TX 值加在一起,例如 total = DCGM_FI_PROF_NVLINK_L0_TX_BYTES + DCGM_FI_PROF_NVLINK_L0_RX_BYTES
-
DCGM_FI_PROF_NVLINK_L0_RX_BYTES 1041
-
DCGM_FI_PROF_NVLINK_L1_TX_BYTES 1042
-
DCGM_FI_PROF_NVLINK_L1_RX_BYTES 1043
-
DCGM_FI_PROF_NVLINK_L2_TX_BYTES 1044
-
DCGM_FI_PROF_NVLINK_L2_RX_BYTES 1045
-
DCGM_FI_PROF_NVLINK_L3_TX_BYTES 1046
-
DCGM_FI_PROF_NVLINK_L3_RX_BYTES 1047
-
DCGM_FI_PROF_NVLINK_L4_TX_BYTES 1048
-
DCGM_FI_PROF_NVLINK_L4_RX_BYTES 1049
-
DCGM_FI_PROF_NVLINK_L5_TX_BYTES 1050
-
DCGM_FI_PROF_NVLINK_L5_RX_BYTES 1051
-
DCGM_FI_PROF_NVLINK_L6_TX_BYTES 1052
-
DCGM_FI_PROF_NVLINK_L6_RX_BYTES 1053
-
DCGM_FI_PROF_NVLINK_L7_TX_BYTES 1054
-
DCGM_FI_PROF_NVLINK_L7_RX_BYTES 1055
-
DCGM_FI_PROF_NVLINK_L8_TX_BYTES 1056
-
DCGM_FI_PROF_NVLINK_L8_RX_BYTES 1057
-
DCGM_FI_PROF_NVLINK_L9_TX_BYTES 1058
-
DCGM_FI_PROF_NVLINK_L9_RX_BYTES 1059
-
DCGM_FI_PROF_NVLINK_L10_TX_BYTES 1060
-
DCGM_FI_PROF_NVLINK_L10_RX_BYTES 1061
-
DCGM_FI_PROF_NVLINK_L11_TX_BYTES 1062
-
DCGM_FI_PROF_NVLINK_L11_RX_BYTES 1063
-
DCGM_FI_PROF_NVLINK_L12_TX_BYTES 1064
-
DCGM_FI_PROF_NVLINK_L12_RX_BYTES 1065
-
DCGM_FI_PROF_NVLINK_L13_TX_BYTES 1066
-
DCGM_FI_PROF_NVLINK_L13_RX_BYTES 1067
-
DCGM_FI_PROF_NVLINK_L14_TX_BYTES 1068
-
DCGM_FI_PROF_NVLINK_L14_RX_BYTES 1069
-
DCGM_FI_PROF_NVLINK_L15_TX_BYTES 1070
-
DCGM_FI_PROF_NVLINK_L15_RX_BYTES 1071
-
DCGM_FI_PROF_NVLINK_L16_TX_BYTES 1072
-
DCGM_FI_PROF_NVLINK_L16_RX_BYTES 1073
-
DCGM_FI_PROF_NVLINK_L17_TX_BYTES 1074
-
DCGM_FI_PROF_NVLINK_L17_RX_BYTES 1075
-
DCGM_FI_PROF_NVLINK_THROUGHPUT_FIRST DCGM_FI_PROF_NVLINK_L0_TX_BYTES
NVLink 吞吐量起始。
-
DCGM_FI_PROF_NVLINK_THROUGHPUT_LAST DCGM_FI_PROF_NVLINK_L17_RX_BYTES
NVLink 吞吐量结束。
-
DCGM_FI_PROF_C2C_TX_ALL_BYTES 1076
C2C(芯片到芯片)接口指标。
-
DCGM_FI_PROF_C2C_TX_DATA_BYTES 1077
-
DCGM_FI_PROF_C2C_RX_ALL_BYTES 1078
-
DCGM_FI_PROF_C2C_RX_DATA_BYTES 1079
-
DCGM_FI_DEV_CPU_UTIL_TOTAL 1100
CPU 利用率,总计。
-
DCGM_FI_DEV_CPU_UTIL_USER 1101
CPU 利用率,用户。
-
DCGM_FI_DEV_CPU_UTIL_NICE 1102
CPU 利用率,nice。
-
DCGM_FI_DEV_CPU_UTIL_SYS 1103
CPU 利用率,系统时间。
-
DCGM_FI_DEV_CPU_UTIL_IRQ 1104
CPU 利用率,中断服务。
-
DCGM_FI_DEV_CPU_TEMP_CURRENT 1110
CPU 温度。
-
DCGM_FI_DEV_CPU_TEMP_WARNING 1111
CPU 警告温度。
-
DCGM_FI_DEV_CPU_TEMP_CRITICAL 1112
CPU 临界温度。
-
DCGM_FI_DEV_CPU_CLOCK_CURRENT 1120
CPU 瞬时时钟速度。
-
DCGM_FI_DEV_CPU_POWER_UTIL_CURRENT 1130
CPU 功耗利用率。
-
DCGM_FI_DEV_CPU_POWER_LIMIT 1131
CPU 功耗限制。
-
DCGM_FI_DEV_SYSIO_POWER_UTIL_CURRENT 1132
SoC 功耗利用率。
-
DCGM_FI_DEV_MODULE_POWER_UTIL_CURRENT 1133
模块功耗利用率。
-
DCGM_FI_DEV_CPU_VENDOR 1140
CPU 供应商名称。
-
DCGM_FI_DEV_CPU_MODEL 1141
CPU 型号名称。
-
DCGM_FI_DEV_NVLINK_COUNT_TX_PACKETS 1200
NVLink5 链路上的总发送数据包数。
-
DCGM_FI_DEV_NVLINK_COUNT_TX_BYTES 1201
NVLink5 链路上的总发送字节数。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_PACKETS 1202
NVLink5 链路上的总接收数据包数。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_BYTES 1203
NVLink5 链路上的总接收字节数。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_MALFORMED_PACKET_ERRORS 1204
链路接收到的数据包中,数据包格式错误的数量。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_BUFFER_OVERRUN_ERRORS 1205
由于缓冲区溢出,接收时丢弃的数据包数量。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_ERRORS 1206
链路上接收到的错误数据包总数。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_REMOTE_ERRORS 1207
接收到的数据包总数 - 冲突/EBP 标记。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_GENERAL_ERRORS 1208
接收到的包头不匹配的数据包总数。
-
DCGM_FI_DEV_NVLINK_COUNT_LOCAL_LINK_INTEGRITY_ERRORS 1209
本地错误计数超过阈值的总次数。
-
DCGM_FI_DEV_NVLINK_COUNT_TX_DISCARDS 1210
丢弃的发送错误数据包总数。
-
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_SUCCESSFUL_EVENTS 1211
链路从正常运行到恢复,成功并恢复正常的次数。
-
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_FAILED_EVENTS 1212
链路从正常运行到恢复,失败并声明链路断开的次数。
-
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_EVENTS 1213
链路从正常运行到恢复的次数,无论结果如何。
-
DCGM_FI_DEV_NVLINK_COUNT_RX_SYMBOL_ERRORS 1214
接收符号中的错误数。
-
DCGM_FI_DEV_NVLINK_COUNT_SYMBOL_BER 1215
符号错误的误码率(BER)。
-
DCGM_FI_DEV_FIRST_CONNECTX_FIELD_ID 1300
ConnectX 的第一个字段 ID。
-
DCGM_FI_DEV_CONNECTX_HEALTH 1300
ConnectX 的健康状态。
-
DCGM_FI_DEV_CONNECTX_ACTIVE_PCIE_LINK_WIDTH 1301
活动的 PCIe 链路宽度。
-
DCGM_FI_DEV_CONNECTX_ACTIVE_PCIE_LINK_SPEED 1302
活动的 PCIe 链路速度。
-
DCGM_FI_DEV_CONNECTX_EXPECT_PCIE_LINK_WIDTH 1303
期望的 PCIe 链路宽度。
-
DCGM_FI_DEV_CONNECTX_EXPECT_PCIE_LINK_SPEED 1304
期望的 PCIe 链路速度。
-
DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_STATUS 1305
可纠正错误状态。
-
DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_MASK 1306
可纠正错误掩码。
-
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_STATUS 1307
不可纠正错误状态。
-
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_MASK 1308
不可纠正错误掩码。
-
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_SEVERITY 1309
不可纠正错误严重性。
-
DCGM_FI_DEV_CONNECTX_DEVICE_TEMPERATURE 1310
设备温度。
-
DCGM_FI_DEV_LAST_CONNECTX_FIELD_ID 1399
ConnectX 的最后一个字段 ID。
-
DCGM_FI_MAX_FIELDS 1311
比上述最大字段数大 1。
这比可以分配的最大字段 ID 大 1
函数
-
dcgm_field_meta_p DcgmFieldGetById(unsigned short fieldId)
通过字段 ID 获取指向字段元数据的指针。
有关字段 ID 列表,请参阅 DCGM_FI_?。
- 参数:
fieldId – 输入:字段 ID 之一 (DCGM_FI_?)
- 返回值:
0 表示失败;>0 表示指向找到的字段元数据结构的指针。
-
dcgm_field_meta_p DcgmFieldGetByTag(const char *tag)
通过字段标签获取指向字段元数据的指针。
- 参数:
tag – 输入:感兴趣字段的标签
- 返回值:
0 表示失败或未找到;>0 表示指向找到的字段元数据结构的指针
-
int DcgmFieldsInit(void)
初始化 DcgmFields 模块。
在程序内部调用一次
- 返回值:
0 表示成功;<0 表示错误
-
int DcgmFieldsTerm(void)
终止 DcgmFields 模块。
在程序内部调用一次
- 返回值:
0 表示成功;<0 表示错误
-
const char *DcgmFieldsGetEntityGroupString(dcgm_field_entity_group_t entityGroupId)
获取 entityGroupId 的字符串版本。
- 返回值:
指向类似于 GPU/NvSwitch..等的字符串
错误时为空
-
DCGM_FI_UNKNOWN 0