DCGM 发行说明
4.1.1
新特性
增加对 H20 NVL16 (devId 230e) 的支持
增加对多个 B200 GPU 的支持
devId 20da
devId 1999
devId 199B10DE
Bug 修复
修复了从 NSCQ 库收集 NVSwitch 错误时导致 nv-hostengine 崩溃的 Bug
修复了
dcgmi stats
报告的值会衰减到低于正确值的 Bug修复了导致 sysmon 模块崩溃的 Bug
4.1.0
新特性
改进了针对较新 GPU 世代的 dcgmproftester NVLink 测试。
添加 IPv6 支持。
添加了在命令行上忽略 DCGM 诊断失败的功能。
添加了对 CX7 的监控
DCGM_FI_DEV_CONNECTX_HEALTH
DCGM_FI_DEV_CONNECTX_ACTIVE_PCIE_LINK_WIDTH
DCGM_FI_DEV_CONNECTX_ACTIVE_PCIE_LINK_SPEED
DCGM_FI_DEV_CONNECTX_EXPECT_PCIE_LINK_WIDTH
DCGM_FI_DEV_CONNECTX_EXPECT_PCIE_LINK_SPEED
DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_STATUS
DCGM_FI_DEV_CONNECTX_CORRECTABLE_ERR_MASK
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_STATUS
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_MASK
DCGM_FI_DEV_CONNECTX_UNCORRECTABLE_ERR_SEVERITY
DCGM_FI_DEV_CONNECTX_DEVICE_TEMPERATURE
添加了新的 NVLink 流量测量字段
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L0
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L1
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L2
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L3
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L4
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L5
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L6
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L7
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L8
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L9
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L10
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L11
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L12
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L13
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L14
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L15
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L16
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_L17
DCGM_FI_DEV_NVLINK_TX_BANDWIDTH_TOTAL
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L0
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L1
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L2
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L3
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L4
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L5
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L6
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L7
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L8
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L9
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L10
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L11
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L12
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L13
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L14
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L15
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L16
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_L17
DCGM_FI_DEV_NVLINK_RX_BANDWIDTH_TOTAL
添加了新的字段来跟踪特定位置的 ECC 错误
DCGM_FI_DEV_ECC_SBE_VOL_SHM
DCGM_FI_DEV_ECC_DBE_VOL_SHM
DCGM_FI_DEV_ECC_SBE_VOL_CBU
DCGM_FI_DEV_ECC_DBE_VOL_CBU
DCGM_FI_DEV_ECC_SBE_AGG_SHM
DCGM_FI_DEV_ECC_DBE_AGG_SHM
DCGM_FI_DEV_ECC_SBE_AGG_CBU
DCGM_FI_DEV_ECC_DBE_AGG_CBU
DCGM_FI_DEV_ECC_SBE_VOL_SRM
DCGM_FI_DEV_ECC_DBE_VOL_SRM
DCGM_FI_DEV_ECC_SBE_AGG_SRM
DCGM_FI_DEV_ECC_DBE_AGG_SRM
添加了平台信息字段
DCGM_FI_DEV_PLATFORM_INFINIBAND_GUID
DCGM_FI_DEV_PLATFORM_CHASSIS_SERIAL_NUMBER
DCGM_FI_DEV_PLATFORM_CHASSIS_SLOT_NUMBER
DCGM_FI_DEV_PLATFORM_TRAY_INDEX
DCGM_FI_DEV_PLATFORM_HOST_ID
DCGM_FI_DEV_PLATFORM_PEER_TYPE
DCGM_FI_DEV_PLATFORM_MODULE_ID
添加了一个字段来跟踪 TLIMIT
DCGM_FI_DEV_GPU_TEMP_LIMIT
Bug 修复
修复了从 NVSDM 检索 NVSwitch 拓扑的 Bug
改进了各种错误情况的日志记录。
更新了 pulse_test 的底层二进制文件版本,以解决崩溃问题。
修复了核心 RPM 中的安装后问题。
改进了 Diagnostic 中 CUDA API 相关的错误消息。
为了减少误报,不要将热违规视为 Diagnostic 的独立故障;只有在出现其他问题迹象时才判定为故障。
修复了阻止 EUD 完成的 Bug(暂停和恢复功能未完全工作)。
在 pulse_test 结果中添加了缺失的错误细节。
修复了 _VIOLATION 字段周围的注释,以注明正确的单位。
4.0.0
新特性
以实体为中心的消息
dcgmi diag
输出已修订为报告错误和信息消息以及实体信息。这将允许诊断程序报告 GPU 和非 GPU 硬件,包括 Nvidia Grace CPU 和 NVSwitch。更新了
dcgmDiagResponse_v
结构和dcgmRunDiag_v
消息格式。
NVBandwidth
有一个新的插件启动 NVBandwidth 来检查单节点上的 GPU 间通信,CUDA 12 支持此功能。
NVLink5 监控
DCGM 现在将使用 NVSDM 库(如果可用)来监控 NVLink5。
添加了几个新字段来监控 GPU NVLink
DCGM_FI_DEV_NVLINK_COUNT_TX_PACKETS
DCGM_FI_DEV_NVLINK_COUNT_TX_BYTES
DCGM_FI_DEV_NVLINK_COUNT_RX_PACKETS
DCGM_FI_DEV_NVLINK_COUNT_RX_BYTES
DCGM_FI_DEV_NVLINK_COUNT_RX_MALFORMED_PACKET_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_RX_BUFFER_OVERRUN_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_RX_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_RX_REMOTE_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_RX_GENERAL_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_LOCAL_LINK_INTEGRITY_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_TX_DISCARDS
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_SUCCESSFUL_EVENTS
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_FAILED_EVENTS
DCGM_FI_DEV_NVLINK_COUNT_LINK_RECOVERY_EVENTS
DCGM_FI_DEV_NVLINK_COUNT_RX_SYMBOL_ERRORS
DCGM_FI_DEV_NVLINK_COUNT_SYMBOL_BER
DCGM_FI_DEV_NVLINK_ERROR_DL_CRC
DCGM_FI_DEV_NVLINK_ERROR_DL_RECOVERY
DCGM_FI_DEV_NVLINK_ERROR_DL_REPLAY
这些新字段也将在
dcgmi nvlink -e
的输出中显示。
其他
除了 deb/rpm 安装后脚本自动创建的
/var/log/nvidia-dcgm
目录外,nv-hostengine
还将在启动时尝试创建由DCGM_HOME_DIR
环境变量或--home-dir
命令行参数指定的日志文件目录。调试符号软件包可用于 RPM 格式的非专有软件包。
改进
NVIDIA Grace CPU 序列号现在可以通过 DCGM API 获取。
诊断运行级别 3 和 4 现在包括 Grace CPU EUD。
Grace CPU EUD 可以通过
dcgmi diag -r cpu_eud
单独运行。dcgmi diag
输出将显示检测到的 Grace CPU它们的各自序列号以 JSON 格式输出报告。
脉冲测试添加了额外的模式,以更好地覆盖 Hopper GPU。
DCGM 使用的 CUDA 内核现在针对 CUDA 12.6.3 编译。
现在解析
/dev/kmsg
以检测以前未检测到的一些 XID。PCIe 测试错误已得到改进,以提高清晰度。
已修复问题
已修复 Hopper GPU 脉冲测试中偶尔的挂起问题。
许多以前错误地归因于多个 GPU 的错误现在已正确地仅归因于有问题的硬件。
已修复 memtest 上的误报警告。
已更正导致故障所需的 PCIe 重放率(以前太低)。
已解决 PCIe 测试期间由于信号处理不当而导致的错误中止。
修复了阻止报告 L20 GPU 上超过 50% 张量活动利用率的问题。
弃用和重大更改
dcgmi diag
的新 JSON 格式有关更新后的格式,请参阅 dcgm_diag_schema.json。
删除了 eud 插件(eud 和 cpu_eud)中的
tmp_dir
参数。DCGM 软件诊断的子测试不再单独报告;现在报告软件测试的聚合结果。
NVVS(长期弃用)将不再写入人类可理解的输出。
dcgmActionValidate_v2()
API 函数现在优先考虑参数组 ID。除非组 ID 设置为DCGM_GROUP_NULL
,否则将不考虑参数实体 ID。用于指定要在其上运行诊断程序的 GPU 列表的
dcgmi diag
的-g
参数已弃用,并可能在未来版本中删除。为了与未来版本兼容,请使用-i
来指定要在其上运行诊断程序的实体列表。dcgm.service
已从独立的 systemd 单元降级为nvidia-dcgm.service
systemd 单元的别名。安装资产不再以单个整体软件包形式提供。相反,安装资产已在多个软件包之间拆分,允许客户端选择不安装不适用于其用例的资产。
组件软件包如下
datacenter-gpu-manager-4-core
提供 nv-hostengine 二进制文件和可通过 DCGM 开源产品获得的其他 CUDA 不可知安装资产
datacenter-gpu-manager-4-cuda11
提供可通过 DCGM 开源产品获得的 CUDA11 特定二进制文件
datacenter-gpu-manager-4-cuda12
提供可通过 DCGM 开源产品获得的 CUDA12 特定二进制文件
datacenter-gpu-manager-4-proprietary
提供未作为 DCGM 开源产品一部分分发的 CUDA 不可知安装资产
datacenter-gpu-manager-4-proprietary-cuda11
提供未作为 DCGM 开源产品一部分分发的 CUDA11 二进制文件
datacenter-gpu-manager-4-proprietary-cuda12
提供未作为 DCGM 开源产品一部分分发的 CUDA12 二进制文件
datacenter-gpu-manager-4-development
提供开发依赖于 DCGM 库的下游软件所需的文件
其他信息请参见软件包文档。
安装路径已更新,以更紧密地符合 文件系统层次结构规范版本 3.0
以前安装到
/usr/share/nvidia-validation-suite/
的二进制文件现在安装到/usr/libexec/datacenter-gpu-manager-4/
以前安装到
/usr/local/dcgm/scripts/
的管理员脚本现在安装到/usr/sbin/
Python 绑定现在安装到
/usr/share/datacenter-gpu-manager-4/bindings/python3/
示例配置文件现在安装到
/usr/share/doc/datacenter-gpu-manager-4/examples/
用于开发依赖于 libdcgm 的软件的 C 头文件安装到
/usr/include/datacenter-gpu-manager-4
CMake find package 模块现在安装到
/usr/share/cmake/
软件开发示例现在安装到
/usr/src/datacenter-gpu-manager-4/
已知问题
脉冲测试有时会不一致地崩溃。
3.3.9
新特性
增加了对 H100 144GB BM3 (devId 2348) 的支持
增加了对 H20 HBM3e (232c) 的支持
改进
为 Grace CPU 添加了 SoC 功耗利用率遥测
已修复问题
纠正了导致 MIG 环境中出现虚假 dcgmproftester 失败的问题
纠正了导致 dcgmproftester 工作进程在关闭时崩溃的问题
纠正了顺序 DCGM 测试会报告 GPU 资源繁忙的问题
纠正了导致 diag -r 4 Memtest 在健康的 H100 GPU 上失败并发出警告的问题。
3.3.8
新特性
DCGM 诊断程序现在包含 –expectedNumEntities 参数,用于指定默认组中预期的 GPU 数量。这有助于通过在实际 GPU 计数与预期数量不同时使诊断失败来识别潜在的脱离总线的 GPU。
DCGM 诊断程序现在具有无限的默认超时时间,取代了之前的 8 小时限制。用户可以使用 –timeout 命令行参数设置自定义超时时间。
DCGM 诊断程序现在支持 H200NVL GPU (SKU 0x233b)。
改进
如果检测到挂起的行重映射,DCGM 诊断程序现在会提前失败。
nvidia-dcgm 服务已配置为与其他 systemd 服务(包括 nvidia-mig-manager)按适当的顺序启动。
DCGM 诊断程序现在支持最多 1024 个字符的测试参数值,从而可以进行更详细的自定义。
EUD 诊断程序现在支持通过命令行多次指定 passthrough_args 参数。这些规范随后被连接起来以形成最终参数值。
DCGM 诊断命令行现在允许多个 -p/–parameters 选项实例。但是,除了 eud.passthrough_args 和 cpu_eud.passthrough_args 之外,每个测试的参数仍应仅指定一次。
CPU EUD (dcgmi diag -r cpu_eud) 现在以 root 身份运行,遵循 GPU EUD (dcgmi diag -r eud) 行为。
已修复问题
DCGM 诊断软件插件现在可以正确地将错误归因于正确的 GPU 索引。
修复了具有多个 NUMA 节点的系统上 DCGM 诊断 PCIe 和内存带宽插件崩溃的问题。
PCIe 总线错误率的 DCGM 健康监控现在取决于 PCIe 世代和预期吞吐量。
修复了 Grace CPU 利用率计算。
3.3.7
新特性
Grace CPU EUD 的初始支持。新的 dcgmi diag -r cpu_eud 命令。需要安装 cpueud 软件包。
EUD 在 aarch64 平台上启用。
现在可以从内核日志中解析关键 XID 事件。
改进
DCGM 现在可以在未安装 Nvidia GPU 驱动程序的环境中工作,以支持仅具有 Grace CPU 的环境。
dcgmi 输出现在包括 EUD 版本。
已修复问题
修复了诊断运行期间 dcgmi 中的段错误错误。
修复了阻止 dcgmproftester 在混合 MIG 环境中工作的问题。
修复了不允许 dcgmproftester 在单 GPU 环境中运行所有测试的问题。
T400 和 T400 4Gb SKU 在 dcgmproftester 中被禁用。
3.3.6
新特性
增加了对 HBM 温度传感器的支持。
Fixed Issues
修复问题
Fixed an issue when DCGM reports extremely high temperature values on some GPUs.
修复了当 DCGM 在某些 GPU 上报告极高温度值的问题。
Fixed overflow in the Memory test.
修复了内存测试中的溢出问题。
Fixed an issue that could lead to GSP timeout errors in the OpenRM driver.
修复了可能导致 OpenRM 驱动程序中 GSP 超时错误的问题。
Fixed an issue when the Pulse test and EUD tests could report issues with the GPU even when the GPU is healthy.
修复了即使 GPU 运行状况良好,Pulse 测试和 EUD 测试也可能报告 GPU 存在问题的问题。
Fixed an issue that lead to incorrect Grace CPU utilization and temperature values.
修复了导致 Grace CPU 利用率和温度值不正确的问题。
Fixed an issue with duplicated errors in the diag reporting.
修复了 diag 报告中重复错误的问题。
Fixed an issue that lead to a paused DCGM state if EUD test is interrupted.
修复了如果 EUD 测试中断导致 DCGM 状态暂停的问题。
3.3.5
3.3.5
New Features
新功能
The DCGM Diagnostic’s diagnostic plugin will now fail if any NaN values are detected in the result matrix.
DCGM 诊断的diagnostic 插件现在会在结果矩阵中检测到任何 NaN 值时失败。
Added support for H200 (devId 2335)
增加了对 H200 (devId 2335) 的支持
Added support for H20 (devId 2329)
增加了对 H20 (devId 2329) 的支持
Improvements
改进
DCGM Diagnostic’s Targeted Power plugin will now use FP64 math to achieve higher power usage on GH200 (devId 2342)
DCGM 诊断的 Targeted Power 插件现在将使用 FP64 数学运算,以在 GH200 (devId 2342) 上实现更高的功耗。
Improved DCGM Diagnostic’s Software plugin’s ability to find installed libraries on the system as part of its library check.
改进了 DCGM 诊断的 Software 插件在系统上查找已安装库的能力,作为其库检查的一部分。
3.3.3
改进
Fixed reporting of Cuda errors in DCGM Diag to be per-GPU rather than for all GPUs.
修复了 DCGM Diag 中 Cuda 错误的报告,使其按 GPU 而不是针对所有 GPU。
Added support for L20 GPU.
Added the gpuId to the JSON output when the DCGM Diag Deployment plugin fails.
当 DCGM Diag Deployment 插件失败时,将 gpuId 添加到 JSON 输出中。
3.3.1
3.3.1
New Features
新功能
Added support for A800 20bd SKU.
增加了对 A800 20bd SKU 的支持。
Added support for water-cooled A800 GPU.
增加了对水冷 A800 GPU 的支持。
Added CPU power and thermal health checks.
增加了 CPU 功耗和散热健康检查。
Added C2C support.
增加了 C2C 支持。
Improvements
改进
All XIDs during diagnostics are now reported.
现在报告诊断期间的所有 XID。
Some logs’ verbosity was reduced from Error to Debug level.
一些日志的详细程度从 Error 级别降低到 Debug 级别。
Stopped checking NVLink replay counts as a failure condition.
停止检查 NVLink 重放计数作为失败条件。
Made EUD independent from service-account. Fixed direct run of the EUD diagnostic.
Fixed EUD diagnostic when MLE parsing is enabled.
修复了启用 MLE 解析时的 EUD 诊断。
Fixed setting of logging severity via dcgmi.
修复了通过 dcgmi 设置日志记录严重性的问题。
Fix crash in pulsetest.
修复了 pulsetest 中的崩溃。
Resolved an issue causing diagnostic to hang on systems with odd number of GPUs.
解决了一个导致诊断在具有奇数 GPU 的系统上挂起的问题。
3.3.0
3.3.0
New Features
新功能
Added support for monitoring NVIDIA Grace CPUs
增加了对监控 NVIDIA Grace CPU 的支持
Added DCGM Diag support for the GPUs of Grace + Hopper systems (devId 2342)
增加了对 Grace + Hopper 系统 (devId 2342) 的 GPU 的 DCGM Diag 支持
Added the following fieldIds for NvSwitch power: DCGM_FI_DEV_NVSWITCH_POWER_VDD, DCGM_FI_DEV_NVSWITCH_POWER_DVDD, DCGM_FI_DEV_NVSWITCH_POWER_HVDD
为 NvSwitch 功耗添加了以下 fieldIds:DCGM_FI_DEV_NVSWITCH_POWER_VDD、DCGM_FI_DEV_NVSWITCH_POWER_DVDD、DCGM_FI_DEV_NVSWITCH_POWER_HVDD
Added DCGM Diag pulse test support for the L4 GPU
增加了对 L4 GPU 的 DCGM Diag pulse 测试支持
Improvements
改进
Reworked DCGM Diag error reporting to include more specific error categories and next steps to aid in automation workflows
重新设计了 DCGM Diag 错误报告,以包含更具体的错误类别和后续步骤,以帮助自动化工作流程
Data Center Profiling metrics are now allowed on SKUs with brand DCGM_BRAND_NVIDIA_RTX like A6000.
数据中心分析指标现在允许在品牌为 DCGM_BRAND_NVIDIA_RTX(如 A6000)的 SKU 上使用。
Added error id, category, and severity to the dcgmi diag –json output for the Deployment Plugin
为 Deployment Plugin 的 dcgmi diag –json 输出添加了错误 ID、类别和严重性
Fixed Issues
修复问题
Added a workaround for DCGM_FI_DEV_MEMORY_TEMP being BLANK on r545 drivers. This is due to NVIDIA Bug 4300930 in the NVML library.
为 r545 驱动程序上 DCGM_FI_DEV_MEMORY_TEMP 为空的情况添加了解决方法。这是由于 NVML 库中的 NVIDIA Bug 4300930 造成的。
Fixed an uninitialized memory bug in the memtest plugin of dcgmi diag -r 4
.
修复了 dcgmi diag -r 4
的 memtest 插件中的未初始化内存错误。
新功能
Added DCGM Diag support for L40S, H100 PCIe (devId 2321), and H800 PCIe (devId 233a)
增加了对 L40S、H100 PCIe (devId 2321) 和 H800 PCIe (devId 233a) 的 DCGM Diag 支持
Improvements
改进
Added logging of health check failures to /var/log/nv-hostengine.log in addition to the dcgmHealthCheck() API returning errors.
除了 dcgmHealthCheck() API 返回错误外,还添加了将健康检查失败记录到 /var/log/nv-hostengine.log 的功能。
修复了 dcgmi diag 的 Permission and OS Blocks 子测试在容器内失败的问题。
Fixed
dcgmi diag -r eud eud.suite_level
returning Invalid Parameter修复了
dcgmi diag -r eud eud.suite_level
返回 Invalid Parameter 的问题Fixed a segfault in DCGM Diag’s nvvs process when GPUs failed to initialize
修复了当 GPU 初始化失败时 DCGM Diag 的 nvvs 进程中的段错误
3.2.5
3.2.5
New Features
新功能
DCGM Diag’s PCIe test will now utilize subprocesses and NUMA to achieve optimal D2H and H2D bandwidth on some AMD CPUs where that is required.
DCGM Diag 的 PCIe 测试现在将利用子进程和 NUMA,以在某些需要这样做的 AMD CPU 上实现最佳的 D2H 和 H2D 带宽。
Added a reminder to restart the DCGM service when running the DCGM Diag warns about the nvvs binary not being found.
当运行 DCGM Diag 警告找不到 nvvs 二进制文件时,添加了重新启动 DCGM 服务的提醒。
Fixed Issues
修复问题
Fixed dcgmi diag not running on ARM64 and PPC64LE platforms in DCGM 3.2.3.
修复了 DCGM 3.2.3 中 dcgmi diag 未在 ARM64 和 PPC64LE 平台上运行的问题。
Fixed RPATH for the DCGM libraries on platforms where there are dcgm libraries in /lib/ directory (ppc64le rhel).
修复了在 /lib/ 目录中有 dcgm 库的平台(ppc64le rhel)上 DCGM 库的 RPATH。
3.2.3
3.2.3
New Features
新功能
Added a reference implementation of DCGM + NCCL multi-node testing.
添加了 DCGM + NCCL 多节点测试的参考实现。
Added a subtest to DCGM Diagnostic’s PCIe test that does GEMMs concurrent to P2P copies.
为 DCGM Diagnostic 的 PCIe 测试添加了一个子测试,该子测试执行与 P2P 副本并发的 GEMM。
Added -r production_testing to DCGM Diagnostics to capture production line testing as a specific use case.
向 DCGM Diagnostics 添加了 -r production_testing,以将生产线测试捕获为特定用例。
Added detection of host side PCIe replays to dcgmi diag -r production_testing as a failure condition.
将主机端 PCIe 重放的检测添加到 dcgmi diag -r production_testing 中,作为失败条件。
Added support for profiling telemetry fieldIds 1001+ for Ada L4
增加了对 Ada L4 的分析遥测 fieldIds 1001+ 的支持
Added power telemetry for NvSwitches.