名称

nvidia-smi - NVIDIA 系统管理界面程序

概要

nvidia-smi [选项1 [参数1]] [选项2 [参数2]] ...

描述

nvidia-smi (也称为 NVSMI) 为 NVIDIA 的 Tesla、Quadro、GRID 和 GeForce 设备（从 Fermi 及更高架构系列）提供监控和管理功能。GeForce Titan 系列设备支持大多数功能，但其余 GeForce 品牌设备的信息非常有限。NVSMI 是一款跨平台工具，支持所有标准的 NVIDIA 驱动程序支持的 Linux 发行版，以及从 Windows Server 2008 R2 开始的 64 位 Windows 版本。指标可以直接通过 stdout 供用户使用，也可以通过 CSV 和 XML 格式的文件提供，以用于脚本编写。

请注意，NVSMI 的大部分功能由底层的基于 C 的 NVML 库提供。有关 NVML 的更多信息，请参阅下面的 NVIDIA 开发者网站链接。还提供基于 NVML 的 Python 绑定。

NVSMI 的输出不保证向后兼容。但是，NVML 和 Python 绑定都是向后兼容的，并且在编写任何必须跨 NVIDIA 驱动程序版本维护的工具时，应作为首选。

NVML SDK: http://developer.nvidia.com/nvidia-management-library-nvml/

Python 绑定: http://pypi.python.org/pypi/nvidia-ml-py/

选项

通用选项

-h, --help

打印用法信息并退出。

--version

打印版本信息并退出。

列表选项

-L, --list-gpus

列出系统中每个 NVIDIA GPU 及其 UUID。

-B, --list-excluded-gpus

列出系统中每个排除的 NVIDIA GPU 及其 UUID。

摘要选项

显示连接到系统的 GPU 的摘要。

[任选其一]

-i, --id=ID

指定目标 GPU。

-f 文件, --filename=文件

日志记录到指定文件，而不是 stdout。

-l 秒, --loop=秒

以指定的秒间隔探测，直到按下 Ctrl+C。

查询选项

-q, --query

显示 GPU 或单元信息。显示的信息包括本文档的（GPU 属性）或（单元属性）部分中列出的所有数据。某些设备和/或环境不支持所有可能的信息。任何不支持的数据在输出中都以“N/A”表示。默认情况下，显示所有可用 GPU 或单元的信息。使用 -i 选项将输出限制为单个 GPU 或单元。

[可选地加上]

-u, --unit

显示单元数据而不是 GPU 数据。单元数据仅适用于 NVIDIA S 级 Tesla 机箱。

-i, --id=ID

显示单个指定 GPU 或单元的数据。指定的 ID 可以是 GPU/单元在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID（十六进制格式为 domain:bus:device.function）。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID，因为设备枚举顺序不能保证在重启之间保持一致，并且板序列号可能在同一板上的多个 GPU 之间共享。

-f 文件, --filename=文件

将查询输出重定向到指定文件，而不是默认的 stdout。指定的文件将被覆盖。

-x, --xml-format

生成 XML 输出，而不是默认的人类可读格式。GPU 和单元查询输出都符合相应的 DTD。这些 DTD 可以通过 --dtd 标志获得。

--dtd

与 -x 一起使用。将 DTD 嵌入到 XML 输出中。

--debug=文件

生成加密的调试日志，用于向 NVIDIA 提交错误报告。

-d 类型, --display=类型

仅显示选定的信息：MEMORY、UTILIZATION、ECC、TEMPERATURE、POWER、CLOCK、COMPUTE、PIDS、PERFORMANCE、SUPPORTED_CLOCKS、PAGE_RETIREMENT、ACCOUNTING、ENCODER_STATS、SUPPORTED_GPU_TARGET_TEMP、VOLTAGE、FBC_STATS、ROW_REMAPPER、RESET_STATUS、GSP_FIRMWARE_VERSION、POWER_SMOOTHING、POWER_PROFILES。标志可以用逗号组合，例如“MEMORY,ECC”。功率、利用率和时钟显示类型也返回最大值、最小值和平均值的采样数据。不适用于 -u/--unit 或 -x/--xml-format 标志。

-l 秒, --loop=秒

以指定的间隔连续报告查询数据，而不是默认的只报告一次。应用程序将在查询之间休眠。请注意，如果在 Linux 上未指定 -x 标志，则 ECC 错误或 Xid 错误事件将在休眠期间打印出来。在任何时候按下 Ctrl+C 都会中止循环，否则循环将无限期运行。如果 -l 形式未指定参数，则使用 5 秒的默认间隔。

-lms 毫秒, --loop-ms=毫秒

与 -l,--loop 相同，但以毫秒为单位。

选择性查询选项

允许调用者传递要查询的属性的显式列表。

[任选其一]

"--query-gpu=

关于 GPU 的信息。传递要查询的属性的逗号分隔列表。例如，--query-gpu=pci.bus_id,persistence_mode。调用 --help-query-gpu 获取更多信息。

--query-supported-clocks=

支持的时钟列表。调用 --help-query-supported-clocks 获取更多信息。

--query-compute-apps=

当前活动的计算进程列表。调用 --help-query-compute-apps 获取更多信息。

--query-accounted-apps=

已计费的计算进程列表。调用 --help-query-accounted-apps 获取更多信息。此查询在 vGPU 主机上不受支持。

--query-retired-pages=

已退役的 GPU 设备内存页列表。调用 --help-query-retired-pages 获取更多信息。

--query-remapped-rows=

关于重新映射的行信息。调用 --help-query-remapped-rows 获取更多信息。

[必需的]

--format=

格式选项的逗号分隔列表

csv - 逗号分隔值 (必需)
noheader - 跳过包含列标题的第一行
nounits - 不打印数值的单位

[加上任选其一]

-i, --id=ID

显示单个指定 GPU 的数据。指定的 ID 可以是 GPU 在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID（十六进制格式为 domain:bus:device.function）。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID，因为设备枚举顺序不能保证在重启之间保持一致，并且板序列号可能在同一板上的多个 GPU 之间共享。

-f 文件, --filename=文件

将查询输出重定向到指定文件，而不是默认的 stdout。指定的文件将被覆盖。

-l 秒, --loop=秒

-lms 毫秒, --loop-ms=毫秒

与 -l,--loop 相同，但以毫秒为单位。

设备修改选项

[任选其一]

-pm, --persistence-mode=模式

设置目标 GPU 的持久模式。有关持久模式的描述，请参阅（GPU 属性）部分。需要 root 权限。除非使用 -i 参数指定单个 GPU，否则将影响所有 GPU。此操作的效果是立即生效的。但是，它不会在重启后持久存在。每次重启后，持久模式将默认为“禁用”。仅在 Linux 上可用。

-e, --ecc-config=配置

设置目标 GPU 的 ECC 模式。有关 ECC 模式的描述，请参阅（GPU 属性）部分。需要 root 权限。除非使用 -i 参数指定单个 GPU，否则将影响所有 GPU。此设置在下次重启后生效，并且是持久的。

-p, --reset-ecc-errors=类型

重置目标 GPU 的 ECC 错误计数器。有关 ECC 错误计数器类型的描述，请参阅（GPU 属性）部分。可用参数为 0|VOLATILE 或 1|AGGREGATE。需要 root 权限。除非使用 -i 参数指定单个 GPU，否则将影响所有 GPU。此操作的效果是立即生效的。Ampere+ 不支持清除聚合计数。

-c, --compute-mode=模式

设置目标 GPU 的计算模式。有关计算模式的描述，请参阅（GPU 属性）部分。需要 root 权限。除非使用 -i 参数指定单个 GPU，否则将影响所有 GPU。此操作的效果是立即生效的。但是，它不会在重启后持久存在。每次重启后，计算模式将重置为“DEFAULT”。

-dm 类型, --driver-model=类型

-fdm 类型, --force-driver-model=类型

启用或禁用 TCC 驱动程序模型。仅适用于 Windows。需要管理员权限。如果连接了显示器，-dm 将失败，但 -fdm 将强制更改驱动程序模型。除非使用 -i 参数指定单个 GPU，否则将影响所有 GPU。需要重启才能使更改生效。有关 Windows 驱动程序模型的更多信息，请参阅 驱动程序模型。

--gom=模式

设置 GPU 操作模式：0/ALL_ON、1/COMPUTE、2/LOW_DP。在 Kepler 系列的 GK110 M 级和 X 级 Tesla 产品上受支持。在 Quadro 和 Tesla C 级产品上不受支持。LOW_DP 和 ALL_ON 是 GeForce Titan 设备上唯一支持的模式。需要管理员权限。有关 GOM 的更多信息，请参阅 GPU 操作模式。GOM 更改在重启后生效。将来可能会取消重启要求。仅计算 GOM 不支持 WDDM（Windows 显示驱动程序模型）

-r, --gpu-reset

触发一个或多个 GPU 的重置。可用于清除 GPU 硬件和软件状态，以应对需要机器重启的情况。如果发生双位 ECC 错误，通常很有用。可选的 -i 开关可用于指定一个或多个特定设备。如果没有此选项，则会重置所有 GPU。需要 root 权限。不能有任何应用程序正在使用这些设备（例如 CUDA 应用程序、图形应用程序（如 X 服务器）、监控应用程序（如 nvidia-smi 的其他实例））。如果无法进行单个 GPU 重置，则系统中的任何其他 GPU 上也不能运行任何计算应用程序。

从 NVIDIA Ampere 架构开始，具有 NVLink 连接的 GPU 可以单独重置。在 Ampere NVSwitch 系统上，需要 Fabric Manager 来促进重置。在 Hopper 及更高版本的 NVSwitch 系统上，消除了对 Fabric Manager 的依赖以促进重置。

如果 Fabric Manager 未运行，或者任何要重置的 GPU 基于 NVIDIA Ampere 架构之前的架构，则任何与要重置的 GPU 具有 NVLink 连接的 GPU 也必须在同一命令中重置。这可以通过省略 -i 开关或使用 -i 开关来指定要重置的 GPU 来完成。如果 -i 选项未指定要重置的 NVLink GPU 的完整集合，则此命令将发出错误，标识必须包含在重置命令中的其他 GPU。

GPU 重置不能保证在所有情况下都有效。目前不建议在生产环境中使用。在某些情况下，板上可能存在硬件组件在重置请求后无法恢复到初始状态。与 Kepler 相比，在 Fermi 代产品上更可能看到这种情况，如果在挂起的 GPU 上执行重置，则更可能看到这种情况。

重置后，建议在使用前验证每个重置 GPU 的健康状况。如果任何 GPU 不健康，则应通过电源循环节点来启动完全重置。

MIG 启用的 vGPU 访客不支持 GPU 重置操作。

访问 http://developer.nvidia.com/gpu-deployment-kit 下载 GDK。

-vm, --virt-mode=模式

切换 GPU 虚拟化模式。将 GPU 虚拟化模式设置为 3/VGPU 或 4/VSGA。GPU 的虚拟化模式只能在 GPU 在 hypervisor 上运行时设置。

-lgc, --lock-gpu-clocks=最小_GPU_时钟,最大_GPU_时钟

将 <minGpuClock,maxGpuClock> 时钟指定为一对（例如 1500,1500），定义最接近的期望锁定 GPU 时钟速度（以 MHz 为单位）。输入也可以使用单个期望时钟值（例如 <GpuClockValue>）。可选地，可以提供 --mode 来指定时钟锁定模式。在 Volta+ 上受支持。需要 root 权限

--mode=0 (默认): 此模式是默认时钟锁定模式，并提供硬件支持的最高频率精度。
--mode=1: 时钟锁定算法利用闭环控制器来实现频率精度，从而为某些类别的应用程序提高每瓦特性能。由于闭环控制器的收敛延迟，频率精度可能略低于默认模式 0。

-lmc, --lock-memory-clocks=最小_内存_时钟,最大_内存_时钟

将 <minMemClock,maxMemClock> 时钟指定为一对（例如 5100,5100），定义期望的锁定内存时钟速度范围（以 MHz 为单位）。输入也可以是单个期望时钟值（例如 <MemClockValue>）。

-rgc, --reset-gpu-clocks

将 GPU 时钟重置为默认值。在 Volta+ 上受支持。需要 root 权限。

-rmc, --reset-memory-clocks

将内存时钟重置为默认值。在 Volta+ 上受支持。需要 root 权限。

-ac, --applications-clocks=内存_时钟,图形_时钟

将最大 <memory,graphics> 时钟指定为一对（例如 2000,800），定义 GPU 在 GPU 上运行应用程序时的速度。在基于 Maxwell 的 GeForce 和 Tesla/Quadro/Titan 设备中的 Kepler+ 系列中受支持。需要 root 权限。

-rac, --reset-applications-clocks

将应用程序时钟重置为默认值。在基于 Maxwell 的 GeForce 和 Tesla/Quadro/Titan 设备中的 Kepler+ 系列中受支持。需要 root 权限。

-lmcd, --lock-memory-clocks-deferred

指定内存时钟，该时钟定义最接近的期望内存时钟（以 MHz 为单位）。内存时钟在下次 GPU 初始化时生效。这可以通过卸载并重新加载内核模块来保证。需要 root 权限。

-rmcd, --reset-memory-clocks-deferred

将内存时钟重置为默认值。需要卸载和重新加载驱动程序才能生效。这可以通过卸载并重新加载内核模块来完成。需要 root 权限。

-pl, --power-limit=功率限制

指定最大功率限制（以瓦特为单位）。接受整数和浮点数。它接受可选参数 --scope。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。值需要在 nvidia-smi 报告的最小和最大功率限制之间。

-sc, --scope=0/GPU, 1/TOTAL_MODULE

指定功率限制的范围。以下是选项：0/GPU：仅更改 GPU 的功率限制 1/模块：更改包含多个组件（例如 GPU 和 CPU）的模块的功率。

-cc, --cuda-clocks=模式

覆盖或恢复默认 CUDA 时钟。可用参数为 0|RESTORE_DEFAULT 或 1|OVERRIDE。

-am, --accounting-mode=模式

启用或禁用 GPU 记帐。通过 GPU 记帐，可以跟踪单个进程生命周期内资源的使用情况。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。可用参数为 0|DISABLED 或 1|ENABLED。

-caa, --clear-accounted-apps

清除迄今为止已记帐的所有进程。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。

--auto-boost-default=模式

将默认自动加速策略设置为 0/DISABLED 或 1/ENABLED，仅在最后一个加速客户端退出后强制执行更改。仅在 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备上可用。需要 root 权限。

--auto-boost-permission=模式

允许非管理员/root 用户控制自动加速模式。可用参数为 0|UNRESTRICTED、1|RESTRICTED。仅在 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备上可用。需要 root 权限。

-mig, --multi-instance-gpu=模式

启用或禁用多实例 GPU 模式。仅在基于 NVIDIA Ampere 架构的设备上受支持。需要 root 权限。可用参数为 0|DISABLED 或 1|ENABLED。

-gtt, --gpu-target-temp=模式

设置 GPU 的目标温度（摄氏度）。需要管理员权限。目标温度应在 GPU 支持的限制范围内。这些限制可以使用查询选项和 SUPPORTED_GPU_TARGET_TEMP 检索。

[可选地加上]

-i, --id=ID

修改单个指定的 GPU。指定的 ID 可以是 GPU/单元在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID（十六进制格式为 domain:bus:device.function）。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID，因为设备枚举顺序不能保证在重启之间保持一致，并且板序列号可能在同一板上的多个 GPU 之间共享。

-eom, --error-on-warning

对于警告返回非零错误代码。

单元修改选项

-t, --toggle-led=状态

将单元正面和背面的 LED 指示灯状态设置为指定的颜色。有关 LED 状态的描述，请参阅（单元属性）部分。允许的颜色为 0|GREEN 和 1|AMBER。需要 root 权限。

[可选地加上]

-i, --id=ID

修改单个指定的单元。指定的 ID 是单元在驱动程序返回的自然枚举中的从 0 开始的索引。

显示 DTD 选项

--dtd

显示设备或单元 DTD。

[可选地加上]

-f 文件, --filename=文件

将查询输出重定向到指定文件，而不是默认的 stdout。指定的文件将被覆盖。

-u, --unit

显示单元 DTD 而不是设备 DTD。

拓扑

显示关于系统的拓扑信息。使用“nvidia-smi topo -h”获取更多信息。仅限 Linux。显示 NVML 能够检测到的所有 GPU，但 CPU 和 NUMA 节点亲和性信息仅显示 Kepler 或更新架构的 GPU。注意：GPU 枚举与 NVML 相同。

排空

显示和修改 GPU 排空状态。排空状态是指 GPU 不再接受新客户端的状态，用于准备关闭 GPU 电源。使用“nvidia-smi drain -h”获取更多信息。仅限 Linux。

nvlink

显示 nvlink 信息。使用“nvidia-smi nvlink -h”获取更多信息。

时钟

查询和控制时钟行为。使用“nvidia-smi clocks --help”获取更多信息。

vgpu

显示有关 GRID 虚拟 GPU 的信息。使用“nvidia-smi vgpu -h”获取更多信息。

mig

提供 MIG 管理的控制。“nvidia-smi mig -h”获取更多信息。

boost-slider

提供 boost sliders 管理的控制。“nvidia-smi boost-slider -h”获取更多信息。

power-hint

提供 power hint 的查询。“nvidia-smi power-hint -h”获取更多信息。

conf-compute

提供机密计算的控制和查询。“nvidia-smi conf-compute -h”获取更多信息。

power-smoothing

提供功率平滑的控制和信息。“nvidia-smi power-smoothing -h”获取更多信息。

power-profiles

工作负载功率配置文件的控制和信息。“nvidia-smi power-profiles -h”获取更多信息。

encodersessions

显示编码器会话信息。“nvidia-smi encodersessions -h”获取更多信息。

返回值

返回值反映操作是成功还是失败，以及失败的原因。

返回值 0 - 成功
返回值 2 - 提供的参数或标志无效
返回值 3 - 目标设备上没有请求的操作
返回值 4 - 当前用户没有访问此设备或执行此操作的权限
返回值 6 - 查找对象的查询不成功
返回值 8 - 设备的外部电源线未正确连接
返回值 9 - NVIDIA 驱动程序未加载
返回值 10 - NVIDIA 内核检测到 GPU 存在中断问题
返回值 12 - 找不到或无法加载 NVML 共享库
返回值 13 - 本地版本的 NVML 未实现此功能
返回值 14 - infoROM 已损坏
返回值 15 - GPU 已从总线上脱落或无法访问
返回值 255 - 发生其他错误或内部驱动程序错误

GPU 属性

以下列表描述了 -q 设备查询选项返回的所有可能数据。除非另有说明，否则所有数值结果均为十进制且无单位。

时间戳

调用 nvidia-smi 时的当前系统时间戳。格式为“星期几月日 HH:MM:SS 年”。

驱动程序版本

已安装的 NVIDIA 显示驱动程序的版本。这是一个字母数字字符串。

CUDA 版本

系统上安装的 CUDA 工具包的版本。这是一个字母数字字符串。

已连接的 GPU

系统中 NVIDIA GPU 的数量。

产品名称

GPU 的官方产品名称。这是一个字母数字字符串。适用于所有产品。

产品品牌

GPU 的官方品牌。这是一个字母数字字符串。适用于所有产品。

产品架构

GPU 的官方架构名称。这是一个字母数字字符串。适用于所有产品。

显示模式

指示物理显示器（例如，监视器）当前是否连接到任何 GPU 连接器的标志。“已启用”表示已连接显示器。“已禁用”表示未连接。

显示活动

指示是否在 GPU 上初始化了显示器（例如，在设备上分配了内存用于显示）的标志。即使没有物理连接监视器，显示器也可能是活动的。“已启用”表示活动显示器。“已禁用”表示未活动。

持久模式

指示是否为 GPU 启用了持久模式的标志。值为“已启用”或“已禁用”。启用持久模式后，即使没有活动客户端（例如 X11 或 nvidia-smi）存在，NVIDIA 驱动程序仍保持加载状态。这最大限度地减少了运行依赖应用程序（例如 CUDA 程序）相关的驱动程序加载延迟。适用于所有支持 CUDA 的产品。仅限 Linux。

寻址模式

指示当前活动的寻址模式的字段。值为“ATS”或“HMM”或“None”。当模式为“ATS”时，系统分配的内存（如 malloc）可以通过地址转换服务从 GPU 寻址。这意味着 CPU 和 GPU 有效地使用同一组页表。当模式为“HMM”时，系统分配的内存（如 malloc）可以通过基于软件的 CPU 页表镜像（在 GPU 上）从 GPU 寻址。当模式为“None”时，ATS 和 HMM 均未激活。仅限 Linux。

MIG 模式

MIG 模式配置状态

当前: 当前使用的 MIG 模式 - NA/已启用/已禁用

待定: MIG 模式的待定配置 - 已启用/已禁用

记帐模式

指示是否为 GPU 启用了记帐模式的标志。值为“已启用”或“已禁用”。启用记帐后，将计算在 GPU 上运行的每个计算进程的统计信息。可以在进程的生命周期内或进程终止后查询统计信息。进程的执行时间在进程处于运行状态时报告为 0，并在进程终止后更新为实际执行时间。有关更多信息，请参阅 --help-query-accounted-apps。

记帐模式缓冲区大小

返回循环缓冲区的大小，该缓冲区保存可以查询记帐统计信息的进程列表。这是在有关最旧进程的信息被有关新进程的信息覆盖之前，将存储记帐信息的最大进程数。

驱动程序模型

在 Windows 上，支持 TCC 和 WDDM 驱动程序模型。可以使用（-dm）或（-fdm）标志更改驱动程序模型。TCC 驱动程序模型针对计算应用程序进行了优化。即，使用 TCC 时，内核启动时间将更快。WDDM 驱动程序模型专为图形应用程序设计，不建议用于计算应用程序。Linux 不支持多种驱动程序模型，并且始终具有值“N/A”。

当前: 当前使用的驱动程序模型。在 Linux 上始终为“N/A”。

待定: 下次重启时将使用的驱动程序模型。在 Linux 上始终为“N/A”。

序列号

此号码与物理打印在每个板上的序列号匹配。它是一个全局唯一的不可变的字母数字值。

GPU UUID

此值是 GPU 的全局唯一的不可变的字母数字标识符。它不对应于板上的任何物理标签。

次要号码

设备的次要号码是这样的，每个 GPU 的 Nvidia 设备节点文件都将具有 /dev/nvidia[次要号码] 的形式。仅在 Linux 平台上可用。

VBIOS 版本

GPU 板的 BIOS。

多 GPU 板

此 GPU 是否是多 GPU 板的一部分。

板 ID

驱动程序分配的唯一板 ID。如果两个或多个 GPU 具有相同的板 ID，并且上面的“多 GPU”字段为真，则这些 GPU 在同一块板上。

板零件号

GPU 板的唯一零件号

GPU 零件号

GPU 的唯一零件号

FRU 零件号

GPU 的唯一 FRU 零件号

平台信息

平台信息是计算托盘平台特定信息。它们是 GPU 的位置索引和平台识别信息。

机箱序列号: 包含此 GPU 的机箱的序列号。

插槽号: 包含此 GPU 的机箱中的插槽号（包括交换机）。

托盘索引: 包含此 GPU 的机箱中计算插槽内的托盘索引（不包括交换机）。

主机 ID: 包含此 GPU 的插槽内的节点索引。

对等类型: 平台指示的 NVLink 对等类型（例如，是否存在交换机）。

模块 ID: 节点内此 GPU 的 ID。

Inforom 版本

GPU 板的 inforom 存储中每个对象的版本号。inforom 是 GPU 的配置和状态数据的小型持久存储。所有 inforom 版本字段都是数字。了解这些版本号可能很有用，因为某些 GPU 功能仅在具有特定版本或更高版本的 inforom 时才可用。

如果以下任何字段返回未知错误，则执行额外的 Inforom 验证检查并显示相应的警告消息。

映像版本: infoROM 映像的全局版本。映像版本就像 VBIOS 版本一样，唯一地描述了板上刷写的 infoROM 的确切版本，而 infoROM 对象版本仅是指示支持的功能。

OEM 对象: OEM 配置数据的版本。

ECC 对象: ECC 记录数据的版本。

电源管理对象: 电源管理数据的版本。

Inforom BBX 对象刷新

关于将黑盒数据刷新到 inforom 存储的信息。

最新时间戳: 当前运行期间 BBX 对象最新刷新的时间戳。

最新持续时间: 当前运行期间 BBX 对象最新刷新的持续时间。

GPU 操作模式

GOM 允许通过禁用 GPU 功能来降低功耗并优化 GPU 吞吐量。

每个 GOM 都旨在满足特定的用户需求。

在“全部开启”模式下，所有功能都已启用并以全速运行。

“计算”模式专为仅运行计算任务而设计。不允许图形操作。

“低双精度”模式专为运行不需要高带宽双精度的图形应用程序而设计。

可以使用（--gom）标志更改 GOM。

在 Kepler 系列的 GK110 M 级和 X 级 Tesla 产品上受支持。在 Quadro 和 Tesla C 级产品上不受支持。低双精度和全部开启模式是支持的 GeForce Titan 产品唯一可用的模式。

当前: 当前使用的 GOM。

待定: 下次重启时将使用的 GOM。

GPU C2C 模式

GPU 的 C2C 模式。

GPU 重置状态

GPU 的重置状态。此功能已弃用。

需要重置: 请求的功能已弃用

建议排空和重置: 请求的功能已弃用

GPU 恢复操作

为清除先前发生的故障而采取的操作。它不用于确定触发恢复操作的故障。
可能的值：None、Reset、Reboot、Drain P2P、Drain and Reset

None

不需要恢复操作

Reset

示例场景 - 未包含的 HBM/SRAM UCE
GPU 遇到需要重置才能恢复的故障。
终止所有 GPU 进程，使用“nvidia-smi -r”重置 GPU，然后可以通过启动新的 GPU 进程再次使用 GPU。

Reboot

示例场景 - UVM 致命错误
GPU 遇到的故障可能使操作系统处于不一致状态。
重启操作系统以将操作系统恢复到一致状态。
需要节点重启。
应用程序无法在不重启节点的情况下重新启动
OS 温重启就足够了（无需 AC/DC 循环）

Drain P2P

示例场景 - N/A
GPU 遇到需要静止所有对等流量的故障。
终止所有进行对等流量的 GPU 进程并禁用 UVM 持久模式。
禁用作业调度（没有新作业），在方便时停止所有应用程序，如果启用了持久模式，则禁用它
一旦所有对等流量都排空，再次查询 NVML_FI_DEV_GET_GPU_RECOVERY_ACTION，这将返回其他操作之一。
如果仍然是 DRAIN_P2P，则 GPU 重置。

Drain and Reset

示例场景 - 包含的 HBM UCE
建议重置。
GPU 遇到的故障导致 GPU 暂时以降低的容量运行，例如其帧缓冲区内存的一部分已脱机，或者其某些 MIG 分区已关闭。
不应在 GPU 上调度新的工作，但未受影响的现有工作可以安全地继续，直到完成或达到良好的检查点。
可以安全地重启应用程序（由于动态页面脱机，内存容量将减少），但最终需要重置（以获取行重映射）。
仅针对 UCE 行重映射断言。
在所有现有工作耗尽后，重置 GPU 以恢复其全部容量。

GSP 固件版本

GSP 的固件版本。这是一个字母数字字符串。

PCI

设备的基本 PCI 信息。当系统中的卡被添加/移除/移动时，其中一些信息可能会发生变化。适用于所有产品。

总线: PCI 总线号，十六进制表示

设备: PCI 设备号，十六进制表示

域: PCI 域号，十六进制表示

基本类代码: PCI 基本类代码，十六进制表示

子类代码: PCI 子类代码，十六进制表示

设备 ID: PCI 供应商设备 ID，十六进制表示

总线 ID: PCI 总线 ID，格式为“域:总线:设备.功能”，十六进制表示

子系统 ID: PCI 子系统 ID，十六进制表示

GPU 链路信息

PCIe 链路代数和总线宽度

最大: 此 GPU 和系统配置可能实现的最大链路代数和宽度。例如，如果 GPU 支持比系统更高的 PCIe 代数，则此项报告系统 PCIe 代数。

当前: 当前的链路代数和宽度。当 GPU 未使用时，这些值可能会降低。

桥接芯片

与设备上的桥接芯片相关的信息。桥接芯片固件仅存在于某些板卡上，对于一些较新的多 GPU 板卡可能会显示“N/A”。

类型: 桥接芯片的类型。如果不存在，则报告为 N/A。

固件版本: 桥接芯片的固件版本。如果不存在，则报告为 N/A。

自重置以来的重传次数

自重置以来的 PCIe 重传次数。

重传次数翻转

自重置以来的 PCIe 重传次数翻转次数。连续 4 次重传后会发生重传次数翻转，并导致链路重新训练。

Tx 吞吐量

过去 20 毫秒内，GPU 为中心的跨 PCIe 总线的传输吞吐量，单位为 MB/s。仅在 Maxwell 架构及更新架构上受支持。

Rx 吞吐量

过去 20 毫秒内，GPU 为中心的跨 PCIe 总线的接收吞吐量，单位为 MB/s。仅在 Maxwell 架构及更新架构上受支持。

原子操作能力

GPU 出站/入站操作的 PCIe 原子操作能力。

风扇转速

风扇转速值是设备风扇当前预期运行的产品最大噪声容限风扇转速的百分比。在某些情况下，此值可能超过 100%。注意：报告的速度是预期的风扇转速。如果风扇被物理阻塞而无法旋转，则此输出将与实际风扇转速不符。许多部件不报告风扇转速，因为它们依赖于周围外壳中的风扇进行冷却。适用于所有带专用风扇的独立产品。

性能状态

GPU 的当前性能状态。状态范围从 P0（最大性能）到 P12（最小性能）。

时钟事件原因

检索有关降低时钟频率的因素的信息。

如果所有事件原因都返回为“非活动”，则表示时钟以尽可能高的频率运行。

空闲: GPU 上没有任何运行，时钟正在降至空闲状态。此限制器可能会在以后的版本中移除。

应用程序时钟设置: GPU 时钟受到应用程序时钟设置的限制。例如，可以使用 nvidia-smi --applications-clocks= 进行更改

软件功耗上限: 软件功耗缩放算法正在将时钟频率降低到请求的时钟频率以下，因为 GPU 功耗过高。例如，可以使用 nvidia-smi --power-limit= 更改软件功耗上限限制

硬件减速: 硬件减速（将核心时钟频率降低 2 倍或更多）已启用。硬件热减速和硬件功耗制动将在 Pascal+ 及更高版本上显示。

这是一个指示器，指示：
* 温度过高（硬件热减速）
* 外部功耗制动断言被触发（例如，由系统电源）（硬件功耗制动减速）
* 功耗过高，快速触发保护正在降低时钟频率

软件热减速: 软件热限制算法正在将时钟频率降低到请求的时钟频率以下，因为 GPU 温度高于最大工作温度

稀疏操作模式

一个标志，指示 GPU 是否启用了稀疏操作模式。值为“已启用”或“已禁用”。如果不支持，则报告为“N/A”。

FB 内存使用率

板载帧缓冲区内存信息。报告的总内存可能会受到 ECC 状态的影响。如果 ECC 确实影响了总可用内存，则由于必需的奇偶校验位，内存会减少几个百分点。即使 GPU 上没有活动工作，驱动程序也可能为内部使用保留少量内存。在 GPU 是 NUMA 节点的系统上，nvidia-smi 提供的 FB 内存利用率的准确性取决于操作系统的内存记账。这是因为 FB 内存由操作系统而不是 NVIDIA GPU 驱动程序管理。通常，即使进程终止，从 FB 内存分配的页面也不会被释放，以提高性能。在操作系统内存压力很大的情况下，它可能会求助于使用 FB 内存。此类操作可能会导致内存报告准确性出现差异。适用于所有产品。

总计: FB 内存的总大小。

已保留: FB 内存的已保留大小。

已使用: FB 内存的已使用大小。

可用: FB 内存的可用大小。

BAR1 内存使用率

BAR1 用于映射 FB（设备内存），以便 CPU 或第三方设备（PCIe 总线上的点对点）可以直接访问它。

总计: BAR1 内存的总大小。

已使用: BAR1 内存的已使用大小。

可用: BAR1 内存的可用大小。

计算模式

计算模式标志指示单个或多个计算应用程序是否可以在 GPU 上运行。

“默认”表示每个设备允许多个上下文。

“独占进程”表示每个设备只允许一个上下文，可以同时从多个线程使用。

“禁止”表示每个设备不允许任何上下文（没有计算应用程序）。

“EXCLUSIVE_PROCESS”是在 CUDA 4.0 中添加的。之前的 CUDA 版本仅支持一种独占模式，该模式等效于 CUDA 4.0 及更高版本中的“EXCLUSIVE_THREAD”。

适用于所有支持 CUDA 的产品。

利用率

利用率报告每个 GPU 在一段时间内的繁忙程度，可用于确定应用程序在系统中使用了多少 GPU。注意：在启用 MIG 的 GPU 上，当前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。

注意：在驱动程序初始化期间启用 ECC 时，可能会看到较高的 GPU 和内存利用率读数。这是由 ECC 内存擦洗机制在驱动程序初始化期间执行引起的。

GPU: 在过去的采样周期内，一个或多个内核在 GPU 上执行的时间百分比。采样周期可能在 1 秒到 1/6 秒之间，具体取决于产品。

内存: 在过去的采样周期内，全局（设备）内存正在被读取或写入的时间百分比。采样周期可能在 1 秒到 1/6 秒之间，具体取决于产品。

编码器: 在过去的采样周期内，GPU 的视频编码器正在使用的时间百分比。采样率是可变的，可以直接通过 nvmlDeviceGetEncoderUtilization() API 获取

解码器: 在过去的采样周期内，GPU 的视频解码器正在使用的时间百分比。采样率是可变的，可以直接通过 nvmlDeviceGetDecoderUtilization() API 获取

JPEG: 在过去的采样周期内，GPU 的 JPEG 解码器正在使用的时间百分比。采样率是可变的，可以直接通过 nvmlDeviceGetJpgUtilization() API 获取

OFA: 在过去的采样周期内，GPU 的 OFA（光流加速器）正在使用的时间百分比。采样率是可变的，可以直接通过 nvmlDeviceGetOfaUtilization() API 获取

编码器统计信息

编码器统计信息报告活动编码器会话的计数，以及此设备上所有这些活动会话的平均帧率 (FPS) 和平均延迟（以微秒为单位）。

活动会话: 此设备上的活动编码器会话总数。

平均帧率: 此设备上所有活动编码器会话的平均每秒帧数 (FPS)。

平均延迟: 此设备上所有活动编码器会话的平均延迟，单位为微秒。

DRAM 加密模式

一个标志，指示是否启用了 DRAM 加密支持。可能是“已启用”或“已禁用”。更改 DRAM 加密模式需要重启。需要 Inforom DRAM 加密对象。

当前: GPU 当前运行的 DRAM 加密模式。

待定: GPU 在下次重启后将运行的 DRAM 加密模式。

ECC 模式

一个标志，指示是否启用了 ECC 支持。可能是“已启用”或“已禁用”。更改 ECC 模式需要重启。需要 Inforom ECC 对象版本 1.0 或更高版本。

当前: GPU 当前运行的 ECC 模式。

待定: GPU 在下次重启后将运行的 ECC 模式。

ECC 错误

NVIDIA GPU 可以提供各种类型的 ECC 错误的错误计数。一些 ECC 错误是单位错误或双位错误，其中单位错误是可纠正的，而双位错误是不可纠正的。纹理内存错误可以通过重发来纠正，如果重发失败则不可纠正。这些错误在两个时间尺度（易失性和聚合性）上可用。单位 ECC 错误由硬件自动纠正，不会导致数据损坏。检测到双位错误但未纠正。有关双位错误发生时计算应用程序行为的信息，请参阅 Web 上的 ECC 文档。易失性错误计数器跟踪自上次驱动程序加载以来检测到的错误数。聚合错误计数无限期地持续存在，因此充当生命周期计数器。

关于易失性计数的说明：在 Windows 上，这是每个启动一次。在 Linux 上，这可能更频繁。在 Linux 上，当没有活动客户端存在时，驱动程序会卸载。因此，如果启用了持久模式，或者始终存在活动的驱动程序客户端（例如 X11），则 Linux 也会看到每次启动的行为。否则，每次运行计算应用程序时都会重置易失性计数。

Tesla 和 Quadro 产品 pre-volta 可以显示 ECC 错误总数，以及基于芯片上位置的错误细分。位置描述如下。聚合错误计数的基于位置的数据需要 Inforom ECC 对象版本 2.0。所有其他 ECC 计数都需要 ECC 对象版本 1.0。

设备内存: 在全局设备内存中检测到的错误。

寄存器文件: 在寄存器文件内存中检测到的错误。

L1 缓存: 在 L1 缓存中检测到的错误。

L2 缓存: 在 L2 缓存中检测到的错误。

纹理内存: 在纹理内存中检测到的奇偶校验错误。

总计: 在整个芯片中检测到的错误总数。设备内存、寄存器文件、L1 缓存、L2 缓存和纹理内存的总和。

在 Turing 上，输出如下：

SRAM 可纠正: 在任何 SRAM 中检测到的可纠正错误数

SRAM 不可纠正: 在任何 SRAM 中检测到的不可纠正错误数

DRAM 可纠正: 在 DRAM 中检测到的可纠正错误数

DRAM 不可纠正: 在 DRAM 中检测到的不可纠正错误数

在 Ampere+ 上，SRAM 错误的分类已得到扩展。SRAM 错误现在根据哪个单元命中错误分类为奇偶校验或 SEC-DED（单错误可纠正/双错误可检测）。添加了一个直方图，用于对哪个单元命中 SRAM 错误进行分类。此外，还添加了一个标志，指示是否超过了特定 SRAM 的阈值。

SRAM 不可纠正奇偶校验: 在奇偶校验保护的 SRAM 中检测到的不可纠正错误数

SRAM 不可纠正 SEC-DED: 在 SEC-DED 保护的 SRAM 中检测到的不可纠正错误数

聚合不可纠正 SRAM 源

SRAM L2: L2 缓存中发生的错误

SRAM SM: SM 中发生的错误

SRAM 微控制器: 微控制器（PMU/GSP 等）中发生的错误

SRAM PCIE: 任何 PCIE 相关单元中发生的错误

SRAM 其他: 发生在上述未涵盖的任何其他位置的错误

页面停用

当 NVIDIA GPU 的 GPU 设备内存页面变得不可靠时，可以停用这些页面。当同一页面发生多个单位 ECC 错误或发生双位 ECC 错误时，可能会发生这种情况。当页面被停用时，NVIDIA 驱动程序会隐藏它，以便任何驱动程序或应用程序内存分配都无法访问它。

双位 ECC 由于双位 ECC 错误而停用的 GPU 设备内存页面的数量。

单位 ECC 由于多个单位 ECC 错误而停用的 GPU 设备内存页面的数量。

待处理 检查是否有任何 GPU 设备内存页面在下次重启时处于待处理黑名单状态。已停用但尚未列入黑名单的页面仍然可以分配，并可能导致进一步的可靠性问题。

行重映射器

当 NVIDIA GPU 的 GPU 设备内存行变得不可靠时，可以重映射这些行。当同一行上发生单个不可纠正的 ECC 错误或多个可纠正的 ECC 错误时，可能会发生这种情况。当一行被重映射时，NVIDIA 驱动程序会将故障行重映射到保留行。所有未来对该行的访问都将访问保留行而不是故障行。此功能在 Ampere+ 及更高版本上可用

可纠正错误 由于可纠正 ECC 错误而重映射的行数。

不可纠正错误 由于不可纠正 ECC 错误而重映射的行数。

待处理 指示行是否处于待处理重映射状态。必须重置 GPU 才能使重映射生效。

重映射失败发生 指示过去是否发生过行重映射失败。

Bank 重映射可用性直方图 每个内存 Bank 都有固定数量的保留行，可用于行重映射。直方图会将每个 Bank 的重映射可用性分类为最大、高、部分、低和无。最大可用性意味着所有保留行都可用于重映射，而无意味着没有保留行可用。由于可纠正行重映射可以被不可纠正行重映射驱逐，因此可纠正行重映射不计入可用性直方图。

温度

来自板上温度传感器的读数。所有读数均以摄氏度为单位。并非所有产品都支持所有读取类型。特别是，以外壳风扇或被动冷却为模块外形的产品通常不提供温度读数。请参阅下面的限制。

T.Limit：T.Limit 传感器测量当前裕量，单位为摄氏度，表示到最高工作温度的距离。因此，它不是绝对温度读数，而是一个相对测量值。

并非所有产品都支持 T.Limit 传感器读数。

当支持时，nvidia-smi 将当前 T.Limit 温度报告为有符号值，该值向下计数。0°C 或更低的 T.Limit 温度表示 GPU 可能会根据热条件优化其时钟频率。此外，当支持 T.Limit 传感器时，可用的温度阈值也相对于 T.Limit（见下文）而不是绝对测量值报告。

GPU: 核心 GPU 温度。适用于所有独立和 S 级产品。
T.Limit 温度: 当前裕量，单位为摄氏度，表示距离 GPU 最高工作温度的距离。
关机温度: GPU 将关机的温度。
关机 T.Limit 温度: GPU 可能关机的 T.Limit 温度下限。由于关机只能由 GPU 最高温度触发，因此当前 T.Limit 可能比此阈值更负。
减速温度: GPU 硬件将开始因热条件而优化时钟频率以进行冷却的温度。
减速 T.Limit 温度: GPU 硬件可能因热条件而优化其时钟频率的 T.Limit 温度下限。由于此时钟调整只能由 GPU 最高温度触发，因此当前 T.Limit 可能比此阈值更负。
最大工作温度: GPU 软件将因热条件而优化其时钟频率的温度。
最大工作 T.Limit 温度: GPU 软件将因热条件而优化其时钟频率的 T.Limit 温度下限。

功耗读数

功耗读数有助于了解 GPU 的当前功耗以及影响该功耗的因素。当启用功耗管理时，GPU 会限制负载下的功耗，以通过操纵当前的性能状态来适应预定义的功耗范围。请参阅下面的可用性限制。请注意，功耗读数不适用于带有 BA 传感器板的 Pascal 及更高版本的 GPU。

功耗状态: 功耗状态已弃用，并在 2.285 版本中重命名为性能状态。为了保持 XML 兼容性，在 XML 格式中，性能状态在两个位置都列出。

功耗管理: 一个标志，指示是否启用了功耗管理。为“受支持”或“N/A”。需要 Inforom PWR 对象版本 3.0 或更高版本或 Kepler 设备。

功耗: 整个板卡的上次测量的功耗，单位为瓦特。仅在支持功耗管理时可用。在 Ampere（GA100 除外）或更新的设备上，返回 1 秒内的平均功耗。在 GA100 和更旧的设备上，返回瞬时功耗。请注意，对于没有 INA 传感器的板卡，这指的是 GPU 的功耗，而不是整个板卡的功耗。

功耗限制: 软件功耗限制，单位为瓦特。由软件（如 nvidia-smi）设置。仅在支持功耗管理时可用。需要 Inforom PWR 对象版本 3.0 或更高版本或 Kepler 设备。在 Kepler 设备上，可以使用 -pl,--power-limit= 开关调整功耗限制。

强制功耗限制: 功耗管理算法的功耗上限，单位为瓦特。总板卡功耗由功耗管理算法操纵，使其保持在此值以下。此限制是各种限制（如上面列出的软件限制）的最小值。仅在支持功耗管理时可用。需要 Kepler 设备。请注意，对于没有 INA 传感器的板卡，正在操纵的是 GPU 功耗。

默认功耗限制: 默认功耗管理算法的功耗上限，单位为瓦特。驱动程序卸载后，功耗限制将设置回默认功耗限制。仅在 Kepler 系列的受支持设备上可用。

最小功耗限制: 可以将功耗限制设置为的最小值，单位为瓦特。仅在 Kepler 系列的受支持设备上可用。

最大功耗限制: 可以将功耗限制设置为的最大值，单位为瓦特。仅在 Kepler 系列的受支持设备上可用。

功耗平滑

与功耗平滑相关的定义和当前设置的值。此功能允许用户调整功耗参数，以最大限度地减少大型数据中心环境中的功耗波动。

已启用: 如果该功能已启用，则值为“是”，如果该功能未启用，则值为“否”。

权限级别: 用户的当前权限。值为 0、1 或 2。请注意，权限级别越高，用户可以访问的信息就越多。

立即斜坡下降: 值为“已启用”或“已禁用”。指示斜坡下降迟滞值将被遵守（启用时）还是被忽略（禁用时）。

当前 TMP: 上次读取的总模块功耗值，单位为瓦特。

当前 TMP 下限: 上次读取的总模块功耗下限值，单位为瓦特。此值通过执行 TMP 上限 * (% TMP 下限值) 计算得出

最大 % TMP 下限: 可以设置百分比 TMP 下限的最高百分比值。

最小 % TMP 下限: 可以设置百分比 TMP 下限的最低百分比值。

硬件寿命 % 剩余: 随着此功能的使用，驱动该功能的电路会磨损。此值给出了此硬件剩余寿命的百分比。

预设配置文件数量: 此值是支持的预设配置文件总数。

当前配置文件

当前活动功耗平滑预设配置文件的值。

% TMP 下限: TMP 上限的百分比，用于设置当前活动预设配置文件的 TMP 下限。例如，如果最大 TMP 为 1000 瓦，并且 % TMP 下限为 50%，则最小 TMP 值将为 500 瓦。此值在 [最小 % TMP 下限，最大 % TMP 下限] 范围内。

斜坡上升速率: 当前活动预设配置文件的斜坡上升速率，以 mW/s 为单位。

斜坡下降速率: 当前活动预设配置文件的斜坡下降速率，以 mW/s 为单位。

斜坡下降迟滞: 当前活动预设配置文件的斜坡下降迟滞值，以毫秒为单位。

活动预设配置文件编号: 活动预设配置文件的编号。

管理员覆盖

管理员覆盖允许具有足够权限的用户抢占当前活动预设配置文件的值。如果为一个字段设置了管理员覆盖，则将使用此值，而不是任何其他配置的值。

% TMP 下限: % TMP 下限的管理员覆盖值。此值在 [最小 % TMP 下限，最大 % TMP 下限] 范围内。

斜坡上升速率: 斜坡上升速率的管理员覆盖值，以 mW/s 为单位。

斜坡下降速率: 斜坡下降速率的管理员覆盖值，以 mW/s 为单位。

斜坡下降迟滞: 斜坡下降迟滞值的管理员覆盖值，以毫秒为单位。

工作负载功耗配置文件

预调优的 GPU 配置文件有助于为数据中心用例提供即时、优化的配置。此部分包括有关当前请求和强制执行的功耗配置文件的信息。

请求的配置文件: 用户请求的配置文件列表。

强制执行的配置文件: 由于许多配置文件具有冲突的目标，因此请求配置文件的某些配置是不兼容的。这是当前强制执行的请求配置文件列表。

时钟频率

GPU 部件当前运行的频率。所有读数均以 MHz 为单位。

图形: 图形（着色器）时钟的当前频率。

SM: SM（流式多处理器）时钟的当前频率。

内存: 内存时钟的当前频率。

视频: 视频（编码器 + 解码器）时钟的当前频率。

应用程序时钟

用户指定的应用程序将以其运行的频率。可以使用 [-ac | --applications-clocks] 开关更改。

图形: 用户指定的图形（着色器）时钟频率。

内存: 用户指定的内存时钟频率。

默认应用程序时钟

应用程序将以其运行的默认频率。可以使用 [-ac | --applications-clocks] 开关更改应用程序时钟。可以使用 [-rac | --reset-applications-clocks] 开关将应用程序时钟设置为默认值。

图形: 默认应用程序图形（着色器）时钟频率。

内存: 默认应用程序内存时钟频率。

最大时钟频率

GPU 部件设计运行的最大频率。所有读数均以 MHz 为单位。

在 Fermi 系列 GPU 上，当前 P0 时钟频率（在时钟频率部分报告）可能与最大时钟频率相差几个 MHz。

图形: 最大图形（着色器）时钟频率。

SM: 最大 SM（流式多处理器）时钟频率。

内存: 最大内存时钟频率。

视频: 最大视频（编码器 + 解码器）时钟频率。

时钟策略

用户指定的自动时钟更改设置，例如自动加速。

自动加速: 指示此 GPU 当前是否启用了自动加速模式（开启）或禁用（关闭）。如果不支持加速，则显示 (N/A)。自动加速允许基于功耗、散热和利用率的动态 GPU 时钟频率调整。当禁用自动加速时，GPU 将尝试将时钟频率精确地保持在当前应用程序时钟设置（只要 CUDA 上下文处于活动状态）。启用自动加速后，GPU 仍会尝试保持此下限，但在功耗、散热和利用率余量允许时，会机会性地加速到更高的时钟频率。此设置在为其请求的 CUDA 上下文的生命周期内持续存在。应用程序可以通过 NVML 调用（请参阅 NVML SDK）或通过设置 CUDA 环境变量 CUDA_AUTO_BOOST 来请求特定模式。

默认自动加速: 指示自动加速模式的默认设置，启用（开启）或禁用（关闭）。如果不支持加速，则显示 (N/A)。如果应用程序未明确请求特定模式，则它们将在默认模式下运行。注意：只有在启用“持久模式”时才能修改自动加速设置，默认情况下“持久模式”未启用。

支持的时钟频率

GPU 可以运行的可能的内存和图形时钟频率组合列表（不考虑硬件制动降低的时钟频率）。这些是可以传递给 --applications-clocks 标志的唯一时钟频率组合。仅当提供 -q -d SUPPORTED_CLOCKS 开关或在 XML 格式中时，才会列出支持的时钟频率。

电压

GPU 报告的当前电压。所有单位均为 mV。

图形: 图形单元的当前电压。此字段已弃用，始终显示“N/A”。电压将在以后的版本中移除。

Fabric

GPU Fabric 信息

状态

指示 GPU 与 nvidia-fabricmanager（又名 GPU fabric 探针）的握手状态
可能的值：已完成、进行中、未启动、不支持

状态

来自 nvidia-fabricmanager 的 GPU fabric 探针响应状态。
可能的值：NVML_SUCCESS 或其中一个故障代码。

Clique ID

Clique 是一组可以通过 NVLink 相互通信的 GPU。
属于同一 Clique 的 GPU 共享相同的 Clique ID。
Clique ID 仅对 NVLink 多节点系统有效。

Cluster UUID

此 GPU 所属的 NVLink 多节点集群的 UUID。
Cluster UUID 对于 NVLink 单节点系统为零。

健康状况

带宽 - GPU NVLink 带宽是否降低 <True/False>
路由恢复进行中 - NVLink 路由恢复是否正在进行中 <True/False>
路由不健康 - NVLink 路由恢复是否失败或中止 <True/False>
访问超时恢复 - NVLink 访问超时恢复是否正在进行中 <True/False>

进程

在设备上具有计算或图形上下文的进程列表。在所有完全支持的产品上报告计算进程。图形进程的报告仅限于从 Kepler 架构开始的受支持产品。

每个条目的格式为“<GPU 索引> <GPU 实例索引> <计算实例索引> <PID> <类型> <进程名称> <GPU 内存使用率>”

GPU 索引: 表示设备的 NVML 索引。

GPU 实例索引: 表示 MIG 设备的 GPU 实例索引（如果已启用）。

计算实例索引: 表示 MIG 设备的计算实例索引（如果已启用）。

PID: 表示与活动计算或图形上下文对应的进程 ID。

类型: 对于计算进程显示为“C”，对于图形进程显示为“G”，对于 MPS（“多进程服务”）计算进程显示为“M”，对于同时具有计算和图形上下文或 MPS 计算和计算上下文的进程显示为“C+G”或“M+C”。

进程名称: 表示计算或图形进程的进程名称。

GPU 内存使用率: 上下文在设备上使用的内存量。在 WDDM 模式下运行时，在 Windows 上不可用，因为 Windows KMD 管理所有内存，而不是 NVIDIA 驱动程序。

设备监控

“nvidia-smi dmon”命令行用于监控插入系统的一个或多个 GPU（最多 16 个设备）。此工具允许用户在每个监控周期看到一行监控数据。输出格式简洁，在交互模式下易于解释。每行输出数据受终端大小限制。在 Kepler 或更新版本的 GPU 下的裸机 64 位 Linux 上的 Tesla、GRID、Quadro 和有限的 GeForce 产品上受支持。默认情况下，监控数据包括功耗、温度、SM 时钟频率、内存时钟频率以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。它还可以配置为报告其他指标，例如帧缓冲区内存使用率、bar1 内存使用率、功耗/热量违规以及聚合的单位/双位 ecc 错误。如果设备不支持任何指标，或者在获取指标时报告任何其他错误，则在输出数据中将其报告为“-”。用户还可以配置监控频率和每次运行的监控迭代次数。还有一个选项可以在每行中包含日期和时间。所有支持的选项都是互斥的，可以以任何顺序一起使用。注意：在启用 MIG 的 GPU 上，当前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。

用法

1) 默认，不带参数
nvidia-smi dmon
以 1 秒的频率监控自然枚举（从 GPU 索引 0 开始）下的最多 16 个受支持设备的默认指标。运行直到用 ^C 终止。

2) 选择一个或多个设备
nvidia-smi dmon -i <设备 1,设备 2, .. , 设备 N>
报告逗号分隔设备列表选择的设备的默认指标。该工具从自然枚举（从 GPU 索引 0 开始）的列表中选择最多 16 个受支持的设备。

3) 选择要显示的指标
nvidia-smi dmon -s <指标组>
<指标组> 可以是以下一项或多项
p - 功耗（以瓦特为单位）和 GPU/内存温度（以摄氏度为单位），如果受支持
u - 利用率（SM、内存、编码器、解码器、JPEG 和 OFA 利用率，以 % 为单位）
c - Proc 和 Mem 时钟频率（以 MHz 为单位）
v - 功耗违规（以 % 为单位）和热量违规（作为布尔标志）
m - 帧缓冲区、Bar1 和机密计算保护内存使用率（以 MB 为单位）
e - ECC（聚合的单位、双位 ecc 错误数）和 PCIe 重传错误
t - PCIe Rx 和 Tx 吞吐量，单位为 MB/s（Maxwell 及更高版本）

4) 配置监控迭代次数
nvidia-smi dmon -c <样本数>
显示指定数量的样本数据并退出。

5) 配置监控频率
nvidia-smi dmon -d <时间，单位为秒>
以指定的监控间隔收集和显示数据，直到用 ^C 终止。

6) 显示日期
nvidia-smi dmon -o D
在监控数据前添加 YYYYMMDD 格式的日期。

7) 显示时间
nvidia-smi dmon -o T
在监控数据前添加 HH:MM:SS 格式的时间。

8) 选择要显示的 GPM 指标
nvidia-smi dmon --gpm-metrics <gpmMetric1,gpmMetric2,...,gpmMetricN>
<gpmMetricX> 请参阅 NVML 头文件中的 nvmlGpmMetricId_t 文档

9) 选择要显示的 GPM 指标的级别
nvidia-smi dmon --gpm-options <gpmMode>
<gpmMode> 可以是以下之一
d - 显示设备级别 GPM 指标
m - 显示 MIG 级别 GPM 指标
dm - 显示设备和 MIG 级别 GPM 指标
md - 显示设备和 MIG 级别 GPM 指标，与 “dm” 相同

10) 修改输出格式
nvidia-smi dmon --format <格式说明符>
<格式说明符> 可以是以下各项的任何逗号分隔组合
csv - 将 dmon 输出格式化为 CSV
nounit - 从 dmon 输出中删除单位行
noheader - 从 dmon 输出中删除标题行

11) 帮助信息
nvidia-smi dmon -h
显示使用命令行的帮助信息。

守护进程 (实验性)

“nvidia-smi daemon” 启动一个后台进程来监控一个或多个插入到系统中的 GPU。它按照监控周期监控请求的 GPU，并将文件以压缩格式记录到用户提供的路径或默认位置 /var/log/nvstats/。日志文件以系统日期附加到文件名后创建，格式为 nvstats-YYYYMMDD。每隔一个监控周期执行一次刷新操作到日志文件。守护进程还会将其自身的 PID 记录到 /var/run/nvsmi.pid。默认情况下，要持久保存的监控数据包括功耗、温度、SM 时钟、内存时钟以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。守护进程工具也可以配置为记录其他指标，例如帧缓冲区内存使用量、bar1 内存使用量、功耗/散热违规以及聚合的单/双比特 ECC 错误。默认监控周期设置为 10 秒，可以通过命令行配置。它在裸机 64 位 Linux 下的 Tesla、GRID、Quadro 和 GeForce 产品（适用于 Kepler 或更新的 GPU）上受支持。守护进程需要 root 权限才能运行，并且仅支持在系统上运行单个实例。所有支持的选项都是互斥的，可以以任何顺序一起使用。注意：在启用 MIG 的 GPU 上，目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。用法：

1) 默认，不带参数
nvidia-smi daemon
在后台运行，以 10 秒的频率监控最多 16 个受支持设备的默认指标，设备按自然枚举顺序排列（从 GPU 索引 0 开始）。日期戳日志文件创建在 /var/log/nvstats/。

2) 选择一个或多个设备
nvidia-smi daemon -i <device1,device2, .. , deviceN>
在后台运行，以监控逗号分隔设备列表选择的设备的默认指标。该工具从列表中选取最多 16 个受支持的设备，设备按自然枚举顺序排列（从 GPU 索引 0 开始）。

3) 选择要监控的指标
nvidia-smi daemon -s <metric_group>
<指标组> 可以是以下一项或多项
p - 功耗（以瓦特为单位）和 GPU/内存温度（以摄氏度为单位），如果受支持
u - 利用率（SM、内存、编码器、解码器、JPEG 和 OFA 利用率，以 % 为单位）
c - Proc 和 Mem 时钟频率（以 MHz 为单位）
v - 功耗违规（以 % 为单位）和热量违规（作为布尔标志）
m - 帧缓冲区、Bar1 和机密计算保护内存使用率（以 MB 为单位）
e - ECC（聚合的单位、双位 ecc 错误数）和 PCIe 重传错误
t - PCIe Rx 和 Tx 吞吐量，单位为 MB/s（Maxwell 及更高版本）

4) 配置监控频率
nvidia-smi daemon -d <time in secs>
按照指定的监控间隔收集数据，直到终止。

5) 配置日志目录
nvidia-smi daemon -p <path of directory>
日志文件在指定的目录中创建。

6) 配置日志文件名
nvidia-smi daemon -j <string to append log file name>
命令行用于将用户提供的字符串附加到日志文件名。

7) 终止守护进程
nvidia-smi daemon -t
此命令行使用存储的 PID（位于 /var/run/nvsmi.pid）来终止守护进程。它会尽最大努力停止守护进程，但不保证其终止。如果守护进程未终止，则用户可以手动发送 kill 信号来终止。执行 GPU 重置操作（通过 nvidia-smi）需要退出所有 GPU 进程，包括守护进程。打开守护进程的用户将看到错误，提示 GPU 繁忙。

8) 帮助信息
nvidia-smi daemon -h
显示使用命令行的帮助信息。

重放模式（实验性）

“nvidia-smi replay” 命令行用于提取/重放守护进程生成的日志文件的全部或部分内容。默认情况下，该工具尝试拉取指标，例如功耗、温度、SM 时钟、内存时钟以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。重放工具还可以获取其他指标，例如帧缓冲区内存使用量、bar1 内存使用量、功耗/散热违规以及聚合的单/双比特 ECC 错误。可以选择一组要重放的指标，如果请求的任何指标未维护或记录为不支持，则在输出中显示为“-”。此模式生成的数据格式使用户可以交互式地运行设备监控实用程序。命令行需要强制选项 “-f” 来指定日志文件的完整路径，所有其他支持的选项都是互斥的，可以以任何顺序一起使用。注意：在启用 MIG 的 GPU 上，目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。用法：

1) 指定要重放的日志文件
nvidia-smi replay -f <log file name>
从压缩的日志文件中获取监控数据，并允许用户查看日志文件中存储的每个监控迭代的一行监控数据（带有时间戳的默认指标）。每隔一秒重放一行新的监控数据，而与收集时维护的实际监控频率无关。它会一直显示到文件末尾或直到被 ^C 终止。

2) 筛选要重放的指标
nvidia-smi replay -f <path to log file> -s <metric_group>
<指标组> 可以是以下一项或多项
p - 功耗（以瓦特为单位）和 GPU/内存温度（以摄氏度为单位），如果受支持
u - 利用率（SM、内存、编码器、解码器、JPEG 和 OFA 利用率，以 % 为单位）
c - Proc 和 Mem 时钟频率（以 MHz 为单位）
v - 功耗违规（以 % 为单位）和热量违规（作为布尔标志）
m - 帧缓冲区、Bar1 和机密计算保护内存使用率（以 MB 为单位）
e - ECC（聚合的单位、双位 ecc 错误数）和 PCIe 重传错误
t - PCIe Rx 和 Tx 吞吐量，单位为 MB/s（Maxwell 及更高版本）

3) 将重放限制为一个或多个设备
nvidia-smi replay -f <log file> -i <device1,device2, .. , deviceN>
将指标报告限制为逗号分隔设备列表选择的设备集。该工具会跳过日志文件中未维护的任何设备。

4) 限制报告数据的时间范围
nvidia-smi replay -f <log file> -b <start time in HH:MM:SS format> -e <end time in HH:MM:SS format>
此选项允许将数据限制在指定的时间范围内。将时间指定为 0 与 -b 或 -e 选项一起使用，分别表示文件开始或结束。

5) 将重放信息重定向到日志文件
nvidia-smi replay -f <log file> -r <output file name>
此选项将日志文件作为输入，并将与默认指标相关的信息提取到指定的输出文件中。

6) 帮助信息
nvidia-smi replay -h
显示使用命令行的帮助信息。

进程监控

“nvidia-smi pmon” 命令行用于监控在一个或多个插入到系统中的 GPU（最多 16 个设备）上运行的计算和图形进程。此工具允许用户在每个监控周期查看每个设备上所有正在运行的进程的统计信息。输出格式简洁，易于在交互模式下解释。每行输出数据受终端大小限制。它在裸机 64 位 Linux 下的 Tesla、GRID、Quadro 和有限的 GeForce 产品（适用于 Kepler 或更新的 GPU）上受支持。默认情况下，每个进程的监控数据包括 pid、命令名称以及自上次监控周期以来的 SM、内存、编码器和解码器的平均利用率值。它也可以配置为报告每个进程的帧缓冲区内存使用量。如果设备没有正在运行的进程，则该设备的所有指标都报告为“-”。如果设备不支持任何指标，或者在获取指标时出现任何其他错误，也会在输出数据中报告为“-”。用户还可以配置监控频率和每次运行的监控迭代次数。还可以选择在每行中包含日期和时间。所有支持的选项都是互斥的，可以以任何顺序一起使用。注意：在启用 MIG 的 GPU 上，目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。

用法

1) 默认，不带参数
nvidia-smi pmon
以 1 秒的频率监控每个设备上运行的所有进程，最多支持 16 个设备，设备按自然枚举顺序排列（从 GPU 索引 0 开始）。运行直到被 ^C 终止。

2) 选择一个或多个设备
nvidia-smi pmon -i <device1,device2, .. , deviceN>
报告逗号分隔设备列表选择的设备上运行的所有进程的统计信息。该工具从列表中选取最多 16 个受支持的设备，设备按自然枚举顺序排列（从 GPU 索引 0 开始）。

3) 选择要显示的指标
nvidia-smi pmon -s <metric_group>
<指标组> 可以是以下一项或多项
u - 利用率（进程的 SM、内存、编码器、解码器、JPEG 和 OFA 利用率，以百分比表示）。报告自上次监控周期以来的平均利用率。
m - 帧缓冲区和保密计算保护内存使用量（以 MB 为单位）。报告内存使用量的瞬时值。

4) 配置监控迭代次数
nvidia-smi pmon -c <number of samples>
显示指定数量的样本数据并退出。

5) 配置监控频率
nvidia-smi pmon -d <time in secs>
按照指定的监控间隔收集和显示数据，直到被 ^C 终止。监控频率必须在 1 到 10 秒之间。

6) 显示日期
nvidia-smi pmon -o D
在监控数据前添加 YYYYMMDD 格式的日期。

7) 显示时间
nvidia-smi pmon -o T
在监控数据前添加 HH:MM:SS 格式的时间。

8) 帮助信息
nvidia-smi pmon -h
显示使用命令行的帮助信息。

拓扑

列出有关系统 GPU 的拓扑信息、它们如何相互连接、它们的 CPU 和内存亲和性以及符合 RDMA 条件的 NIC。

注意：在某些系统中，NIC 用作 NVLINK 交换机的 PCI 桥接器，从网络或 RDMA 的角度来看没有用处。 nvidia-smi topo 命令将通过检查 NIC 的 sysfs 条目，从拓扑矩阵中过滤掉 NIC 的端口/PCIe 子功能。在某些内核版本中，nvidia-smi 需要 root 权限才能读取这些 sysfs 条目。

用法
1) 系统中 GPU 和 NIC 之间的拓扑连接和亲和性矩阵
nvidia-smi topo -m
显示系统中所有 GPU 和 NIC 之间连接的矩阵，以及 GPU 的 CPU/内存亲和性，并带有以下图例

图例

X = 自身 SYS = 遍历 PCIe 以及 NUMA 节点之间 SMP 互连的连接（例如，QPI/UPI） NODE = 遍历 PCIe 以及 NUMA 节点内 PCIe 主桥之间互连的连接 PHB = 遍历 PCIe 以及 PCIe 主桥（通常是 CPU）的连接 PXB = 遍历多个 PCIe 交换机（不遍历 PCIe 主桥）的连接 PIX = 遍历单个 PCIe 交换机的连接 NV# = 遍历 # 个 NVLink 绑定集的连接

注意：此命令也可能显示可能不具备 RDMA 功能的绑定 NIC。

2) 系统中 GPU 和 NIC 之间的仅 PCI 拓扑连接和亲和性矩阵
nvidia-smi topo -mp
显示系统中所有 GPU 和 NIC 之间仅 PCI 连接的矩阵，以及 GPU 的 CPU/内存亲和性，图例与 “nvidia-smi topo -m” 命令相同。此命令排除 NVLINK 连接，并显示 GPU 之间的 PCI 连接。

3) 显示与给定 CPU 具有亲和性的 GPU
nvidia-smi topo -c <CPU number>
显示与指定的 CPU 编号具有亲和性的所有 GPU。

4) 显示给定遍历路径的最近 GPU
nvidia-smi topo -n <traversal path> -i <deviceID>
显示使用指定的遍历路径与给定 GPU 连接的所有 GPU。遍历路径值为: 0 = 双 GPU 板上的单个 PCIe 交换机 1 = 单个 PCIe 交换机 2 = 多个 PCIe 交换机 3 = PCIe 主桥 4 = PCIe 主桥之间的片上 CPU 互连链路 5 = NUMA 节点之间的 SMP 互连链路

5) 一对 GPU 的直接 PCIe 路径遍历
nvidia-smi topo -p -i <deviceID1>,<deviceID2>
显示给定一对 GPU 的最直接 PCIe 路径遍历。

6) P2P 状态矩阵
nvidia-smi topo -p2p <capability>
显示所有 GPU 之间的 P2P 状态，给定一个功能。功能值是: r - p2p 读取功能 w - p2p 写入功能 n - p2p nvlink 功能 a - p2p 原子功能 p - p2p pcie 功能

7) 给定 GPU 的最近 CPU 的 NUMA ID
nvidia-smi topo -C -i <deviceID>
显示由设备 ID 表示的 GPU 的最近 CPU 的 NUMA ID。

8) 给定 GPU 的最近内存节点的 NUMA ID
nvidia-smi topo -M -i <deviceID>
显示由设备 ID 表示的 GPU 的最近内存的 NUMA ID。

9) GPU 的 NUMA ID
nvidia-smi topo -gnid -i <deviceID>
显示由设备 ID 表示的 GPU 的 NUMA ID（如果适用）。否则显示 N/A。

10) 系统中 GPU 和 NVME 设备之间的拓扑连接
nvidia-smi topo -nvme
显示系统中所有 GPU 和 NVME 设备之间 PCI 连接的矩阵，并带有以下图例

图例

X = 自身 SYS = 遍历 PCIe 以及 NUMA 节点之间 SMP 互连的连接（例如，QPI/UPI） NODE = 遍历 PCIe 以及 NUMA 节点内 PCIe 主桥之间互连的连接 PHB = 遍历 PCIe 以及 PCIe 主桥（通常是 CPU）的连接 PXB = 遍历多个 PCIe 桥接器（不遍历 PCIe 主桥）的连接 PIX = 最多遍历单个 PCIe 桥接器的连接

Nvlink

“nvidia-smi nvlink” 命令行用于管理 GPU 的 Nvlink。它提供用于设置和查询 Nvlink 信息的选项。

用法

1) 显示帮助菜单
nvidia-smi nvlink -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi nvlink -i <GPU IDs>
nvidia-smi nvlink --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 选择特定的 NvLink
nvidia-smi nvlink -l <GPU Nvlink Id>
nvidia-smi nvlink --list <GPU Nvlink Id>
如果有效，则为给定命令选择 GPU 的特定 Nvlink。如果未使用，则给定的命令行选项适用于 GPU 的所有 Nvlink。

4) 查询 Nvlink 状态
nvidia-smi nvlink -s
nvidia-smi nvlink --status
获取 GPU 的 Nvlink 的状态。
如果为 Active，则将显示链路的带宽。
如果链路存在但未激活，则会将链路显示为 Inactive。
如果链路处于 Sleep 状态，则会显示为 Sleep。

5) 查询 Nvlink 功能
nvidia-smi nvlink -c
nvidia-smi nvlink --capabilities
获取 GPU 的 Nvlink 功能。

6) 查询 Nvlink 的远程节点 PCI 总线
nvidia-smi nvlink -p
nvidia-smi nvlink -pcibusid
获取 Nvlink 的远程节点 PCI 总线 ID。

7) 查询 Nvlink 的远程链路信息
nvidia-smi nvlink -R
nvidia-smi nvlink -remotelinkinfo
获取链路的远程设备 PCI 总线 ID 和 NvLink ID。

8) 设置 Nvlink 计数器控制已弃用

9) 获取 Nvlink 计数器控制已弃用

10) 获取 Nvlink 计数器已弃用，应改用 -gt/--getthroughput

11) 重置 Nvlink 计数器已弃用

12) 查询 Nvlink 错误计数器
nvidia-smi nvlink -e
nvidia-smi nvlink --errorcounters
获取 Nvlink 错误计数器。

对于 NVLink 4

重放错误 - 计数发生的重放 “事件” 的数量

恢复错误 - 计数链路恢复事件的数量

CRC 错误 - 计数接收数据包中 CRC 错误的数量

对于 NVLink 5

Tx 数据包 - 链路上的总 Tx 数据包

Tx 字节 - 链路上的总 Tx 字节

Rx 数据包 - 链路上的总 Rx 数据包

Rx 字节 - 链路上的总 Rx 字节

格式错误的数据包错误 - 在链路 Rx 上接收到的格式错误的数据包的数量

缓冲区溢出错误 - 由于缓冲区溢出而在 Rx 上丢弃的数据包的数量

Rx 错误 - 在链路上接收到的错误数据包总数

Rx 远程错误 - 接收到的数据包总数 - 桩脚/EBP 标记

Rx 常规错误 - 接收到的具有标头不匹配的数据包总数

本地链路完整性错误 - 本地错误计数超过阈值的总次数

Tx 丢弃 - 丢弃的 tx 错误数据包总数

链路恢复成功事件 - 链路从 Up 变为 recovery，成功并恢复正常的次数

链路恢复失败事件 - 链路从 Up 变为 recovery，失败且链路声明为 down 的次数

链路恢复事件总数 - 链路从 Up 变为 recovery 的次数，与结果无关

有效错误 - 每个 Nvlink 数据包中错误数量的总和

有效 BER - 符号错误的 BER

符号错误 - rx 符号中的错误数

符号 BER - 符号错误的 BER

FEC 错误 - [0-15] - 已纠正的符号错误计数

13) 查询 Nvlink CRC 错误计数器
nvidia-smi nvlink -ec
nvidia-smi nvlink --crcerrorcounters
获取每个通道的 Nvlink CRC 错误计数器。

获取每个通道的 Nvlink CRC/ECC 错误计数器。

CRC - NVLink 4 及更早版本 - NVLink 通道上的总 Rx CRC 错误

ECC - NVLink 4 - NVLink 通道上的总 Rx ECC 错误

已弃用 NVLink 5 及更高版本

14) 重置 Nvlink 错误计数器

nvidia-smi nvlink -re
nvidia-smi nvlink --reseterrorcounters
将所有 Nvlink 错误计数器重置为零。
NvLink 5 不支持

15) 查询 Nvlink 吞吐量计数器
nvidia-smi nvlink -gt <Data Type>
nvidia-smi nvlink --getthroughput <Data Type>
<Data Type> 可以是以下之一
d - 以 KiB 为单位的 Tx 和 Rx 数据有效负载。
r - 以 KiB 为单位的 Tx 和 Rx 原始有效负载和协议开销。

16) 设置 Nvlink 低功耗阈值
nvidia-smi nvlink -sLowPwrThres <Threshold>
nvidia-smi nvlink --setLowPowerThreshold <Threshold>
在链路进入低功耗模式之前，设置 Nvlink 低功耗阈值，单位为 100us。

17) 获取 Nvlink 低功耗信息
nvidia-smi nvlink -gLowPwrInfo
nvidia-smi nvlink --getLowPowerInfo
查询 Nvlink 的低功耗信息。

18) 设置 Nvlink 带宽模式
nvidia-smi nvlink -sBwMode <Bandwidth Mode>
nvidia-smi nvlink --setBandwidthMode <Bandwidth Mode>
为所有 GPU 设置 Nvlink 带宽模式。这对于 Blackwell+ 已弃用。
选项包括
FULL - 所有链路都处于最大带宽。
OFF - 不使用带宽。P2P 通过 PCIe 总线。
MIN - 带宽处于最小速度。
HALF - 带宽约为 FULL 速度的一半。
3QUARTER - 带宽约为 FULL 速度的 75%。

19) 获取 Nvlink 带宽模式
nvidia-smi nvlink -gBwMode
nvidia-smi nvlink --getBandwidthMode
获取所有 GPU 的 Nvlink 带宽模式。这对于 Blackwell+ 已弃用。

20) 查询 Nvlink 桥接器
nvidia-smi nvlink -cBridge
nvidia-smi nvlink --checkBridge
查询 Nvlink 桥接器的存在。

21) 设置 GPU 的 Nvlink 宽度
nvidia-smi nvlink -sLWidth <Link Width>
nvidia-smi nvlink --setLinkWidth <Link Width>
设置 GPU 的 Nvlink 宽度，这将保持这些数量的链路处于活动状态，其余链路处于睡眠状态。
<Link Width> 可以是以下之一
values - 列出要设置的可能的链路宽度。
上述选项中的数值。

22) 获取 GPU 的 Nvlink 宽度
nvidia-smi nvlink -gLWidth
nvidia-smi nvlink --getLinkWidth
查询 GPU 的 Nvlink 宽度。

C2C

“nvidia-smi c2c” 命令行用于管理 GPU 的 C2C 链路。它提供用于查询 C2C 链路信息的选项。

用法

1) 显示帮助菜单
nvidia-smi c2c -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi c2c -i <GPU IDs>
nvidia-smi c2c --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 选择特定的 C2C 链路
nvidia-smi c2c -l <GPU C2C Id>
nvidia-smi c2c --list <GPU C2C Id>
如果有效，则为给定命令选择 GPU 的特定 C2C 链路。如果未使用，则给定的命令行选项适用于 GPU 的所有 C2C 链路。

4) 查询 C2C 链路状态
nvidia-smi c2c -s
nvidia-smi c2c --status
获取 GPU 的 C2C 链路的状态。如果处于活动状态，则将显示链路的带宽。

vGPU 管理

“nvidia-smi vgpu” 命令报告在受支持的 GPU 和虚拟机监控程序上执行的 GRID vGPU（有关受支持平台，请参阅驱动程序发行说明）。摘要报告提供有关当前在系统上执行的 vGPU 的基本信息。其他选项提供 vGPU 属性的详细报告、每个 vGPU 的 SM、内存、编码器、解码器、Jpeg 和 OFA 利用率报告，以及每个 GPU 的受支持和可创建 vGPU 报告。可以通过为任何命令指定可配置的循环频率来自动生成定期报告。注意：在启用 MIG 的 GPU 上，目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。

用法

1) 帮助信息
nvidia-smi vgpu -h
显示使用命令行的帮助信息。

2) 默认，不带参数
nvidia-smi vgpu
报告每个设备上当前处于活动状态的所有 vGPU 的摘要。

3) 显示当前处于活动状态的 vGPU 的详细信息
nvidia-smi vgpu -q
收集并显示每个设备上当前处于活动状态的 vGPU 的信息，包括驱动程序版本、利用率和其他信息。

4) 选择一个或多个设备
nvidia-smi vgpu -i <device1,device2, .. , deviceN>
报告逗号分隔设备列表选择的设备上当前处于活动状态的所有 vGPU 的摘要。

5) 显示受支持的 vGPU
nvidia-smi vgpu -s
显示每个设备上支持的 vGPU 类型。使用 -v / --verbose 选项显示每个 vGPU 类型的详细信息。

6) 显示可创建的 vGPU
nvidia-smi vgpu -c
显示每个设备上可创建的 vGPU 类型。这会动态变化，具体取决于设备上已处于活动状态的 vGPU。使用 -v / --verbose 选项显示每个 vGPU 类型的详细信息。

7) 报告当前处于活动状态的 vGPU 的利用率。
nvidia-smi vgpu -u
报告自上次监控周期以来每个活动 vGPU 的平均利用率（SM、内存、编码器、解码器、Jpeg 和 OFA）。默认周期时间为 1 秒，命令运行直到被 ^C 终止。如果设备没有活动的 vGPU，则其指标报告为 “-”。

8) 配置循环频率
nvidia-smi vgpu [-s -c -q -u] -l <time in secs>
按照指定的循环间隔收集和显示数据，直到被 ^C 终止。循环频率必须在 1 到 10 秒之间。如果未指定时间，则循环频率默认为 5 秒。

9) 显示 GPU 引擎使用率
nvidia-smi vgpu -p
显示 vGPU VM 中当前正在运行的进程的 GPU 引擎使用率。

10) 显示迁移功能。
nvidia-smi vgpu -m
显示 pGPU 的迁移/挂起/恢复能力。

11) 显示 vGPU 软件调度器状态。
nvidia-smi vgpu -ss
显示有关 vGPU 软件调度器状态的信息。

12) 显示 vGPU 软件调度器功能。
nvidia-smi vgpu -sc
如果引擎类型为 Graphics 类型，则显示与其他功能值一起返回的受支持 vGPU 调度器策略列表。对于其他引擎类型，它是 BEST EFFORT 策略，其他功能将为零。如果 ARR 受支持且已启用，则调度频率和平均因子适用，否则 timeSlice 适用。

13) 显示 vGPU 软件调度器日志。
nvidia-smi vgpu -sl
显示 vGPU 软件调度器运行列表日志。

nvidia-smi --query-vgpu-scheduler-logs=[input parameters]
以 CSV 格式显示 vGPU 软件调度器运行列表日志。

14) 设置 vGPU 软件调度器状态。
nvidia-smi vgpu --set-vgpu-scheduler-state [options]
设置 vGPU 软件调度器策略和状态。

15) 显示 Nvidia 编码器会话信息。
nvidia-smi vgpu -es
显示有关当前正在运行的 vGPU 的编码器会话的信息。

16) 显示记帐统计信息。
nvidia-smi vgpu --query-accounted-apps=[input parameters]
显示计算/图形进程的记帐统计信息。
要查找可以查询的属性列表，请运行 - 'nvidia-smi --help-query-accounted-apps'。

17) 显示 Nvidia 帧缓冲区捕获会话信息。
nvidia-smi vgpu -fs
显示有关当前正在运行的 vGPU 的 FBC 会话的信息。
注意：如果自会话开始以来没有捕获到新帧，则 FBC 会话的水平分辨率、垂直分辨率、平均 FPS 和平均延迟数据可能为零。

18) 设置 vGPU 异构模式。
nvidia-smi vgpu -shm
为具有不同帧缓冲区大小的时分 vGPU 设置设备的 vGPU 异构模式。

MIG 管理

特权 “nvidia-smi mig” 命令行用于管理启用 MIG 的 GPU。它提供用于创建、列出和销毁 GPU 实例和计算实例的选项。

用法

1) 显示帮助菜单
nvidia-smi mig -h
显示使用命令行的帮助菜单。

2) 选择一个或多个 GPU
nvidia-smi mig -i <GPU IDs>
nvidia-smi mig --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 选择一个或多个 GPU 实例
nvidia-smi mig -gi <GPU instance IDs>
nvidia-smi mig --gpu-instance-id <GPU instance IDs>
使用给定的逗号分隔的 GPU 实例 ID 选择一个或多个 GPU 实例。如果未使用，则给定的命令行选项适用于所有 GPU 实例。

4) 选择一个或多个计算实例
nvidia-smi mig -ci <compute instance IDs>
nvidia-smi mig --compute-instance-id <compute instance IDs>
使用给定的逗号分隔的计算实例 ID 选择一个或多个计算实例。如果未使用，则给定的命令行选项适用于所有计算实例。

5) 列出 GPU 实例配置文件
nvidia-smi mig -lgip -i <GPU IDs>
nvidia-smi mig --list-gpu-instance-profiles --id <GPU IDs>
列出 GPU 实例配置文件、它们的可用性和 ID。配置文件描述了受支持的 GPU 实例类型，包括它们独占控制的所有 GPU 资源。

6) 列出 GPU 实例可能的放置位置
nvidia-smi mig -lgipp -i <GPU IDs>
nvidia-smi mig --list-gpu-instance-possible-placements --id <GPU IDs>
列出 GPU 实例可能的放置位置。可能的放置位置描述了 GPU 内受支持的 GPU 实例类型的位置。

7) 创建 GPU 实例
nvidia-smi mig -cgi <GPU instance specifiers> -i <GPU IDs>
nvidia-smi mig --create-gpu-instance <GPU instance specifiers> --id <GPU IDs>
为给定的 GPU 实例说明符创建 GPU 实例。GPU 实例说明符包含 GPU 实例配置文件名称或 ID 以及可选的放置位置说明符，该说明符由冒号和放置位置起始索引组成。如果分配请求的 GPU 实例所需的 GPU 资源不可用，或者放置位置索引对于给定的配置文件无效，则命令将失败。

8) 创建 GPU 实例以及默认计算实例
nvidia-smi mig -cgi <GPU instance profile IDs or names> -i <GPU IDs> -C
nvidia-smi mig --create-gpu-instance <GPU instance profile IDs or names> --id <GPU IDs> --default-compute-instance

9) 列出 GPU 实例
nvidia-smi mig -lgi -i <GPU IDs>
nvidia-smi mig --list-gpu-instances --id <GPU IDs>
列出 GPU 实例及其 ID。

10) 销毁 GPU 实例
nvidia-smi mig -dgi -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --destroy-gpu-instances --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
销毁 GPU 实例。如果请求的 GPU 实例正在被应用程序使用，则命令将失败。

11) 列出计算实例配置文件
nvidia-smi mig -lcip -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --list-compute-instance-profiles --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
列出计算实例配置文件、它们的可用性和 ID。配置文件描述了受支持的计算实例类型，包括它们共享或独占控制的所有 GPU 资源。

12) 列出计算实例可能的放置位置
nvidia-smi mig -lcipp -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --list-compute-instance-possible-placements --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
列出计算实例可能的放置位置。可能的放置位置描述了 GPU 实例内受支持的计算实例类型的位置。

13) 创建计算实例
nvidia-smi mig -cci <compute instance profile IDs or names> -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --create-compute-instance <compute instance profile IDs or names> --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
为给定的计算实例说明符创建计算实例。计算实例说明符包含计算实例配置文件名称或 ID 以及可选的放置位置说明符，该说明符由冒号和放置位置起始索引组成。如果分配请求的计算实例所需的 GPU 资源不可用，或者放置位置索引对于给定的配置文件无效，则命令将失败。

14) 列出计算实例
nvidia-smi mig -lci -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --list-compute-instances --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
列出计算实例及其 ID。

15) 销毁计算实例
nvidia-smi mig -dci -ci <compute instance IDs> -gi <GPU instance IDs> -i <GPU IDs>
nvidia-smi mig --destroy-compute-instance --compute-instance-id <compute instance IDs> --gpu-instance-id <GPU instance IDs> --id <GPU IDs>
销毁计算实例。如果请求的计算实例正在被应用程序使用，则命令将失败。

Boost Slider

特权 “nvidia-smi boost-slider” 命令行用于管理 GPU 上的 boost slider。它提供用于列出和控制 boost slider 的选项。

用法

1) 显示帮助菜单
nvidia-smi boost-slider -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi boost-slider -i <GPU IDs>
nvidia-smi boost-slider --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 列出 boost slider
nvidia-smi boost-slider -l
nvidia-smi boost-slider --list
列出所选设备的所有 boost slider。

4) 设置视频 boost slider
nvidia-smi boost-slider --vboost <value>
为所选设备设置视频 boost slider。

Power Hint

特权 “nvidia-smi power-hint” 命令行用于查询 GPU 上的 power hint。

用法

1) 显示帮助菜单
nvidia-smi boost-slider -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi boost-slider -i <GPU IDs>
nvidia-smi boost-slider --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 列出 power hint 信息
nvidia-smi boost-slider -l
nvidia-smi boost-slider --list-info
列出所选设备的所有 boost slider。

4) 查询 power hint
nvidia-smi boost-slider -gc <value> -t <value> -p <profile ID>
nvidia-smi boost-slider --graphics-clock <value> --temperature <value> --profile <profile ID>
使用图形时钟、温度和配置文件 ID 查询 power hint。

5) 查询 power hint
nvidia-smi boost-slider -gc <value> -mc <value> -t <value> -p <profile ID>
nvidia-smi boost-slider --graphics-clock <value> --memory-clock <value> --temperature <value> --profile <profile ID>
使用图形时钟、内存时钟、温度和配置文件 ID 查询 power hint。

保密计算

“nvidia-smi conf-compute” 命令行用于管理保密计算。它提供用于设置和查询保密计算的选项。

用法

1) 显示帮助菜单
nvidia-smi conf-compute -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi conf-compute -i <GPU IDs>
nvidia-smi conf-compute --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 查询保密计算 CPU 功能
nvidia-smi conf-compute -gc
nvidia-smi conf-compute --get-cpu-caps
获取保密计算 CPU 功能。

4) 查询保密计算 GPU 功能
nvidia-smi conf-compute -gg
nvidia-smi conf-compute --get-gpus-caps
获取保密计算 GPU 功能。

5) 查询保密计算开发者工具模式
nvidia-smi conf-compute -d
nvidia-smi conf-compute --get-devtools-mode
获取保密计算开发者工具模式。

6) 查询保密计算环境
nvidia-smi conf-compute -e
nvidia-smi conf-compute --get-environment
获取保密计算环境。

7) 查询保密计算功能状态
nvidia-smi conf-compute -f
nvidia-smi conf-compute --get-cc-feature
获取保密计算 CC 功能状态。

8) 查询保密计算 GPU 保护/非保护内存大小
nvidia-smi conf-compute -gm
nvidia-smi conf-compute --get-mem-size-info
获取保密计算 GPU 保护/非保护内存大小。

9) 设置保密计算 GPU 非保护内存大小
nvidia-smi conf-compute -sm <value>
nvidia-smi conf-compute --set-unprotected-mem-size <value>
以 KiB 为单位设置保密计算 GPU 非保护内存大小。需要 root 权限。

10) 设置保密计算 GPU 就绪状态
nvidia-smi conf-compute -srs <value>
nvidia-smi conf-compute --set-gpus-ready-state <value>
设置保密计算 GPU 就绪状态。该值必须为 1 以设置就绪状态，为 0 以取消设置。需要 root 权限。

11) 查询保密计算 GPU 就绪状态
nvidia-smi conf-compute -grs
nvidia-smi conf-compute --get-gpus-ready-state
获取保密计算 GPU 就绪状态。

12) 设置保密计算密钥轮换最大攻击者优势
nvidia-smi conf-compute -skr <value>
nvidia-smi conf-compute --set-key-rotation-max-attacker-advantage
设置保密计算密钥轮换最大攻击者优势

13) 显示保密计算密钥轮换阈值信息
nvidia-smi conf-compute -gkr
nvidia-smi conf-compute --get-key-rotation-threshold-info
显示保密计算密钥轮换阈值信息

14) 显示保密计算多 GPU 模式
nvidia-smi conf-compute -mgm
nvidia-smi conf-compute --get-multigpu-mode
显示保密计算多 GPU 模式

15) 显示保密计算详细信息
nvidia-smi conf-compute -q
nvidia-smi conf-compute --query-conf-compute
显示保密计算详细信息

GPU 性能监控 (GPM) 流状态

"nvidia-smi gpm" 命令行用于管理 GPU 性能监控单元。它提供查询和设置流状态的选项。

用法

1) 显示帮助菜单
nvidia-smi gpm -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi gpm -i <GPU IDs>
nvidia-smi gpm --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

3) 查询 GPU 性能监控流状态
nvidia-smi gpm -g
nvidia-smi gpm --get-stream-state
获取所选设备的 gpm 流状态。

4) 设置 GPU 性能监控流状态
nvidia-smi gpm -s <value>
nvidia-smi gpm --set-stream-state <value>
设置所选设备的 gpm 流状态。

GPU PCI 部分

"nvidia-smi pci" 命令行用于管理 GPU PCI 计数器。它提供查询和清除 PCI 计数器的选项。

用法

1) 显示帮助菜单
nvidia-smi pci -h
显示使用命令行的帮助菜单。

2) 查询 PCI 错误计数器
nvidia-smi pci -i <GPU index> -gErrCnt
查询 GPU 的 PCI 错误计数器

3) 清除 PCI 错误计数器
nvidia-smi pci -i <GPU index> -cErrCnt
清除 GPU 的 PCI 错误计数器

4) 查询 PCI 计数器
nvidia-smi pci -i <GPU index> -gCnt
查询 GPU 的 PCI RX 和 TX 计数器

功耗平滑

"nvidia-smi power-smoothing" 命令行用于管理 GPU 上的电源平滑相关数据。它提供设置电源平滑相关数据和查询预设配置文件定义的选项。

用法

1) 显示帮助菜单
nvidia-smi power-smoothing -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi power-smoothing -i <GPU IDs>
nvidia-smi power-smoothing --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

2) 列出一个预设配置文件 ID
nvidia-smi power-smoothing -p <Profile ID>
nvidia-smi power-smoothing --profile <Profile ID>
选择要更新值的预设配置文件 ID。当更新预设配置文件参数时，这是必需的，在所有其他情况下都是禁止的。

2) 设置活动预设配置文件 ID
nvidia-smi power-smoothing -spp <Profile ID>
nvidia-smi power-smoothing --set-preset-profile <Profile ID>
激活所需的预设配置文件 ID。

2) 更新百分比总模块功率 (TMP) 下限
nvidia-smi power-smoothing -ptf <Percentage> -p <Profile ID>
nvidia-smi power-smoothing --percent-tmp-floor <Percentage> --profile <Profile ID>
为给定的预设配置文件 ID 设置百分比 TMP 下限为输入值。所需的百分比应介于 0 - 100 之间，格式为 "AB.CD"，最多两位小数精度。例如，要将值设置为 34.56%，用户将输入 34.56。输入也可以包含零位或一位小数精度。此选项需要一个配置文件 ID 作为参数。

2) 更新上升速率
nvidia-smi power-smoothing -rur <value> -p <Profile ID>
nvidia-smi power-smoothing --ramp-up-rate <value> --profile <Profile ID>
为给定的预设配置文件 ID 将上升速率设置为所需值。给定的速率必须以 mW/s 为单位。此选项需要一个配置文件 ID 作为参数。

2) 更新下降速率
nvidia-smi power-smoothing -rdr <value> -p <Profile ID>
nvidia-smi power-smoothing --ramp-down-rate <value> --profile <Profile ID>
为给定的预设配置文件 ID 将下降速率设置为所需值。给定的速率必须以 mW/s 为单位。此选项需要一个配置文件 ID 作为参数。

2) 更新下降迟滞
nvidia-smi power-smoothing -rdh <value> -p <Profile ID>
nvidia-smi power-smoothing --ramp-down-hysteresis <value> --profile <Profile ID>
为给定的预设配置文件 ID 将下降迟滞设置为所需值。给定的速率必须以 ms 为单位。此选项需要一个配置文件 ID 作为参数。

2) 显示所有配置文件 ID 的预设配置文件定义
nvidia-smi power-smoothing -ppd
nvidia-smi power-smoothing --print-profile-definitions
显示每个预设配置文件 ID 的所有值。

2) 设置功能状态
nvidia-smi power-smoothing -s <state>
nvidia-smi power-smoothing --state <state>
将功能状态设置为 0/DISABLED 或 1/ENABLED

"电源配置文件

"nvidia-smi power-profiles" 命令行用于管理 GPU 上的工作负载电源配置文件相关数据。它提供更新电源配置文件数据和查询支持的电源配置文件的选项。

用法

1) 显示帮助菜单
nvidia-smi power-profiles -h
显示使用命令行的帮助菜单。

2) 列出一个或多个 GPU
nvidia-smi power-profiles -i <GPU IDs>
nvidia-smi power-profiles --id <GPU IDs>
使用给定的逗号分隔的 GPU 索引、PCI 总线 ID 或 UUID 选择一个或多个 GPU。如果未使用，则给定的命令行选项适用于所有受支持的 GPU。

2) 列出电源配置文件
nvidia-smi power-profiles -l
nvidia-smi power-profiles --list
列出设备支持的所有工作负载电源配置文件。

2) 列出详细的电源配置文件信息
nvidia-smi power-profiles -ld
nvidia-smi power-profiles --list-detailed
列出设备支持的所有工作负载电源配置文件及其元数据。这包括配置文件 ID、优先级（数字越小表示优先级越高）以及与给定配置文件冲突的配置文件。如果请求了两个或多个冲突的配置文件，则并非所有配置文件都可能被强制执行。

2) 获取请求的配置文件
nvidia-smi power-profiles -gr
nvidia-smi power-profiles --get-requested
获取当前所有请求的电源配置文件的列表。请注意，如果任何配置文件冲突，则并非所有配置文件都可能被强制执行。

2) 设置请求的配置文件
nvidia-smi power-profiles -sr <Profile ID>
nvidia-smi power-profiles --set-requested <Profile ID(s)>
将输入的配置文件添加到请求的电源配置文件列表中。输入是以逗号分隔的配置文件 ID 列表，不包含空格。

2) 清除请求的配置文件
nvidia-smi power-profiles -cr <Profile ID>
nvidia-smi power-profiles --clear-requested <Profile ID(s)>
从请求的电源配置文件列表中删除输入的配置文件。输入是以逗号分隔的配置文件 ID 列表，不包含空格。

2) 获取强制执行的配置文件
nvidia-smi power-profiles -ge
nvidia-smi power-profiles --get-enforced
获取当前所有强制执行的电源配置文件的列表。请注意，如果选择了多个冲突的配置文件，则此列表可能与请求的配置文件列表不同。

单元属性

以下列表描述了 -q -u 单元查询选项返回的所有可能数据。除非另有说明，所有数值结果均为十进制且无单位。

时间戳

调用 nvidia-smi 时的当前系统时间戳。格式为“星期几月日 HH:MM:SS 年”。

驱动程序版本

已安装 NVIDIA 显示驱动程序的版本。格式为“主版本号.次版本号”。

HIC 信息

有关系统中安装的任何主机接口卡 (HIC) 的信息。

固件版本: HIC 上运行的固件版本。

连接的单元

系统中连接的单元数量。

产品名称

单元的官方产品名称。这是一个字母数字值。适用于所有 S 级产品。

产品 ID

单元的产品标识符。这是一个“part1-part2-part3”形式的字母数字值。适用于所有 S 级产品。

产品序列号

单元不可变的全局唯一标识符。这是一个字母数字值。适用于所有 S 级产品。

固件版本

单元上运行的固件版本。格式为“主版本号.次版本号”。适用于所有 S 级产品。

LED 状态

LED 指示灯用于标记具有潜在问题的系统。琥珀色 LED 指示存在问题。适用于所有 S 级产品。

颜色: LED 指示灯的颜色。可以是“绿色”或“琥珀色”。

原因: 当前 LED 颜色的原因。原因可能列为“未知”、“主机系统设置为琥珀色”、“热传感器故障”、“风扇故障”和“温度超过临界限制”的任意组合。

温度

单元重要组件的温度读数。所有读数均以摄氏度为单位。并非所有读数都可能可用。适用于所有 S 级产品。

进气: 单元进气口的空气温度。

排气: 单元排气点的空气温度。

板载: 单元板载的空气温度。

PSU

单元电源的读数。适用于所有 S 级产品。

状态: PSU 的运行状态。电源状态可以是以下任何一种：“正常”、“异常”、“高压”、“风扇故障”、“散热器温度”、“电流限制”、“电压低于 UV 报警阈值”、“低压”、“I2C 远程关闭命令”、“MOD_DISABLE 输入”或“短路引脚转换”。

电压: PSU 电压设置，单位为伏特。

当前: PSU 电流消耗，单位为安培。

风扇信息

单元的风扇读数。为每个风扇提供一个读数，其中可能有很多个。适用于所有 S 级产品。

状态: 风扇的状态，可以是“正常”或“故障”。

速度: 对于健康的风扇，风扇的转速，单位为 RPM。

已连接的 GPU

对应于连接到单元的每个 GPU 的 PCI 总线 ID 列表。总线 ID 的格式为“域:总线:设备.功能”，以十六进制表示。适用于所有 S 级产品。

注释

在 Linux 上，如果以 root 身份运行 nvidia-smi，则可以修改 NVIDIA 设备文件。请参阅驱动程序 README 文件的相关部分。

-a 和 -g 参数现在已被弃用，推荐使用 -q 和 -i。但是，旧参数在此版本中仍然有效。

示例

nvidia-smi -q

一次查询所有 GPU 的属性，并以纯文本格式显示到 stdout。

nvidia-smi --format=csv,noheader --query-gpu=uuid,persistence_mode

查询系统中所有 GPU 的 UUID 和持久模式。

nvidia-smi -q -d ECC,POWER -i 0 -l 10 -f out.log

以 10 秒的频率无限期地查询 GPU 0 的 ECC 错误和功耗，并记录到文件 out.log。

"nvidia-smi -c 1 -i GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8"

将 UUID 为 "GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8" 的 GPU 的计算模式设置为“PROHIBITED”。

nvidia-smi -q -u -x --dtd

一次查询所有单元的属性，并以嵌入 DTD 的 XML 格式显示到 stdout。

nvidia-smi --dtd -u -f nvsmi_unit.dtd

将单元 DTD 写入 nvsmi_unit.dtd。

nvidia-smi -q -d SUPPORTED_CLOCKS

显示所有 GPU 支持的时钟频率。

nvidia-smi -i 0 --applications-clocks 2500,745

将应用程序时钟频率设置为 2500 MHz 内存和 745 MHz 图形。

nvidia-smi mig -cgi 19

在配置文件 ID 19 上创建 MIG GPU 实例。

nvidia-smi mig -cgi 19:2

在配置文件 ID 19 上创建 MIG GPU 实例，放置起始索引为 2。

nvidia-smi boost-slider -l

列出所有 GPU 的所有 boost 滑块。

nvidia-smi boost-slider --vboost 1

将所有 GPU 的 vboost 值设置为 1。

nvidia-smi power-hint -l

列出功率提示的时钟范围、温度范围和支持的配置文件。

nvidia-smi boost-slider -gc 1350 -t 60 -p 0

查询图形时钟频率为 1350MHz、温度为 60C、配置文件 ID 为 0 的功率提示。

nvidia-smi boost-slider -gc 1350 -mc 1215 -t n5 -p 1

查询图形时钟频率为 1350MHz、内存时钟频率为 1215MHz、温度为 -5C、配置文件 ID 为 1 的功率提示。

变更日志

=== 已知问题 ===

* 在 GPU 为 NUMA 节点的系统上，nvidia-smi 提供的 FB 内存利用率的准确性取决于操作系统的内存记账。

这是因为 FB 内存由操作系统而不是 NVIDIA GPU 驱动程序管理。

通常，即使进程终止，从 FB 内存分配的页面也不会被释放，以提高性能。在以下情况下

操作系统处于内存压力之下，它可能会求助于使用 FB 内存。此类操作可能会导致内存报告的准确性出现差异。

* 在 Linux 上，当存在待处理的 GOM 更改时，无法触发 GPU 重置。

* 在 Linux 上，GPU 重置可能无法成功更改待处理的 ECC 模式。可能需要完全重启才能启用模式更改。

* 在将 NVIDIA GPU 配置为 NUMA 节点的 Linux 平台上，如果 nvidia-persistenced 未运行，或者 nvidia-persistenced 无法访问 NVIDIA 驱动程序的 procfs 目录中的设备文件 (/proc/driver/nvidia/gpus/<PCI 配置地址>/)，则启用持久模式或重置 GPU 可能会打印“Warning: persistence mode is disabled on device”。在 GPU 重置和驱动程序重新加载期间，此目录将被删除并重新创建，并且对已删除目录的未完成引用（例如挂载或 shell）可能会阻止进程访问新目录中的文件。

* === nvidia-smi v570 更新版本和 v565 版本之间的更改 ===

* 为 "nvidia-smi nvlink" 添加了新的命令行选项 "-LWidth" 和 "-Width"

* 为 "nvidia-smi nvlink - for Blackwell and onward generations" 添加了显示 Nvlink 休眠状态的新功能

* 为平均/瞬时模块功耗添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.draw.{average,instant}"

* 为默认/最大/最小模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.{default_limit,max_limit,min_limit}"

* 为模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.limit"

* 为强制执行的模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.enforced.power.limit"

* 为 GPU 功率选项添加了新的查询 GPU 别名

* 添加了一个新命令来获取保密计算信息: "nvidia-smi conf-compute -q"

* 在 nvidia-smi -q 中添加了新的电源配置文件部分以及相应的 -d 显示标志 POWER_PROFILES

* 添加了新的电源配置文件选项 "nvidia-smi power-profiles" 以获取/设置电源配置文件相关信息。

* 将平台信息查询添加到 "nvidia-smi -q"

* 将平台信息查询添加到 "nvidia-smi --query-gpu platform"

* 添加了新的电源平滑选项 "nvidia-smi power-smoothing" 以设置电源平滑相关值。

* 在 nvidia-smi -q 中添加了新的电源平滑部分以及相应的 -d 显示标志 POWER_SMOOTHING

* 弃用了 nvidia-smi -q 电压部分中的图形电压值。电压现在始终显示为 "N/A"，并将在未来版本中删除。

* 添加了新的拓扑选项 nvidia-smi topo -nvme 以显示 GPU 与 NVMe 的连接路径。

* 将命令 "nvidia-smi topo -p2p -p" 的帮助字符串从 "prop" 更改为 "pcie"，以更好地描述 p2p 功能。

* 添加了新命令 "nvidia-smi pci -gCnt" 以查询 PCIe RX/TX 字节。

* 在 nvidia-smi -q 命令的新功能部分下添加了 EGM 功能显示。

* 通过 "nvidia-smi conf-compute --get-multigpu-mode" 或 "nvidia-smi conf-compute -mgm" 添加了通过 nvidia-smi 进行 multiGpuMode 显示

* nvidia-smi -q 中的 GPU 重置状态已被弃用。GPU 恢复操作提供了所有必要的操作

* nvidia-smi -q 现在将显示 Dram 加密状态

* nvidia-smi -den/--dram-encryption 0/1 用于禁用/启用 dram 加密

* 为 nvidia fabric health 添加了新状态。nvidia-smi -q 将在 Fabric Health 中显示 3 个新字段 - 路由恢复中、路由不健康和访问超时恢复

* 在 nvidia-smi -q 平台信息中 - RACK GUID 已更改为平台信息 - RACK 序列号

* 在 nvidia-smi --query-gpu 中，添加了 gpu_recovery_action 的新选项

* - 在 nvidia-smi nvlink -e 中为 Nvlink5 添加了新计数器

* - 有效错误以获取每个 Nvlink 数据包中错误数量的总和

* - 有效 BER 以获取有效错误的有效 BER

* - FEC 错误 - 0 到 15 以获取已纠正的符号错误计数

* === nvidia-smi v565 更新版本和 v560 版本之间的更改 ===

* 将 vGPU 同构模式的报告添加到 "nvidia-smi -q"。

* 将同构 vGPU 放置的报告添加到 "nvidia-smi vgpu -s -v"，补充了现有的异构 vGPU 放置报告。

* === nvidia-smi v560 更新版本和 v555 版本之间的更改 ===

* 在 "nvidia-smi -q" 的 PCI 部分中添加了 "Atomic Caps Inbound"。

* 更新了选项 "--query-gpu" 和 "--query-remapped-rows" 的 ECC 和行重映射器输出。

* 添加了对事件的支持，包括 ECC 单位错误风暴、DRAM 退休、DRAM 退休失败、包含/非致命毒害和未包含/致命毒害。

* 在 "nvidia-smi nvlink -e" 中添加了支持，以显示 NVLink5 错误计数器

* === nvidia-smi v550 更新版本和 v545 版本之间的更改 ===

* 添加了一个新的命令行选项来打印版本信息: --version

* 添加了仅使用 "nvidia-smi -q -d" 打印 GSP 固件版本的功能。示例命令行: nvidia-smi -q -d GSP_FIRMWARE_VERSION

* 添加了支持以查询 pci.baseClass 和 pci.subClass。有关详细信息，请参阅 nvidia-smi --help-query-gpu。

* 将 PCI 基类代码和子类代码添加到 "nvidia-smi -q" 输出。

* 为 "nvidia-smi dmon" 添加了新的命令行选项 "--format"，以支持 "csv"、"nounit" 和 "noheader" 格式说明符

* 为 "nvidia-smi dmon" 添加了一个新的命令行选项 "--gpm-options"，以支持 MIG 模式下的 GPM 指标报告

* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi pmon"

* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi -q -d utilization"

* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -q"，以报告活动 vgpu 上的 NVJPG/NVOFA 利用率

* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -u"，以定期报告活动 vgpu 上的 NVJPG/NVOFA 利用率

* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -p"，以定期报告活动 vgpu 的运行进程的 NVJPG/NVOFA 利用率

* 为 "nvidia-smi vgpu" 添加了一个新的命令行选项 "-shm"，以设置 vGPU 异构模式

* 将 vGPU 异构模式的报告添加到 "nvidia-smi -q"

* 添加了无需启用 MIG 即可调用 "nvidia-smi mig -lgip" 和 "nvidia-smi mig -lgipp" 的功能

* 添加了支持以查询保密计算密钥轮换阈值信息。

* 添加了支持以设置保密计算密钥轮换最大攻击者优势。

* 为 "nvidia-smi clocks" 添加了一个新的命令行选项 "--sparse-operation-mode"，以设置稀疏操作模式

* 将稀疏操作模式的报告添加到 "nvidia-smi -q -d PERFORMANCE"

* === nvidia-smi v535 更新版本和 v545 版本之间的更改 ===

* 添加了支持以查询 BBX 对象最新刷新到 inforom 存储的时间戳和持续时间。

* 添加了报告 GPU 内存功耗的支持。

* === nvidia-smi v535 更新版本和 v530 版本之间的更改 ===

* 更新了 ECC 查询 "nvidia-smi -q -d ECC" 中报告的 SRAM 错误状态

* 添加了支持以查询和报告 GPU JPEG 和 OFA (光流加速器) 利用率。

* 删除了已弃用的 "stats" 命令。

* 添加了支持以设置 vGPU 软件调度器状态。

* 将计数器收集单元重命名为 GPU 性能监控。

* 为设备查询添加了新的 C2C 模式报告。

* 将 clock_throttle_reasons 添加回 --query-gpu，以不破坏向后兼容性

* 添加了支持以获取保密计算 CPU 功能和 GPU 功能。

* 添加了支持以设置保密计算非保护内存和 GPU 就绪状态。

* 添加了支持以获取保密计算内存信息和 GPU 就绪状态。

* 添加了支持以显示保密计算开发工具模式、环境和功能状态。

* === nvidia-smi v525 更新版本和 v530 版本之间的更改 ===

* 添加了支持以查询 power.draw.average 和 power.draw.instant。有关详细信息，请参阅 nvidia-smi --help-query-gpu。

* 添加了支持以获取 vGPU 软件调度器状态。

* 添加了支持以获取 vGPU 软件调度器日志。

* 添加了支持以获取 vGPU 软件调度器功能。

* 将时钟频率限制原因重命名为时钟事件原因。

* === nvidia-smi v520 更新版本和 v525 版本之间的更改 ===

* 添加了支持以查询和设置计数器收集单元流状态。

* === nvidia-smi v470 更新版本和 v510 版本之间的更改 ===

* 向 FB 内存输出添加了新的 "Reserved" 内存报告

* === nvidia-smi v465 更新版本和 v470 版本之间的更改 ===

* 添加了支持以查询功率提示

* === nvidia-smi v460 更新版本和 v465 版本之间的更改 ===

* 删除了对 -acp,--application-clock-permissions 选项的支持

* === nvidia-smi v450 更新版本和 v460 版本之间的更改 ===

* 添加了在创建 MIG GPU 实例时指定放置的功能。

* 添加了支持以查询和控制 boost 滑块

* === nvidia-smi v445 更新版本和 v450 版本之间的更改 ===

* 添加了 --lock-memory-clock 和 --reset-memory-clock 命令，以锁定到提供的最接近的最小/最大内存时钟频率，并能够重置内存时钟频率

* 允许报告大于 100% 的风扇速度

* 添加了拓扑支持，以显示 GPU 设备的 NUMA 节点关联性

* 添加了支持，以使用配置文件名称创建 MIG 实例

* 添加了支持，以在创建 GPU 实例时创建默认计算实例

* 添加了支持，以在 Windows 上查询和禁用 MIG 模式

* 删除了在启用 MIG 的 vGPU 客户机上对 GPU 重置 (-r) 命令的支持

* === nvidia-smi v418 更新版本和 v445 版本之间的更改 ===

* 添加了对多实例 GPU (MIG) 的支持

* 添加了支持，以基于 NVIDIA Ampere 架构单独重置支持 NVLink 的 GPU

* === nvidia-smi v361 更新版本和 v418 版本之间的更改 ===

* 支持 Volta 和 Turing 架构、错误修复、性能改进和新功能

* === nvidia-smi v352 更新版本和 v361 版本之间的更改 ===

* 添加了 nvlink 支持，以公开可用的 NVLINK NVML API

* 添加了具有同步 boost 支持的时钟子命令

* 更新了 nvidia-smi stats，以报告 GPU 温度指标

* 更新了 nvidia-smi dmon，以支持 PCIe 吞吐量

* 更新了 nvidia-smi daemon/replay，以支持 PCIe 吞吐量

* 更新了 nvidia-smi dmon、daemon 和 replay，以支持 PCIe 重放错误

* 在 nvidia-smi -q 中添加了 GPU 部件号

* 删除了对独占线程计算模式的支持

* 将视频 (编码器/解码器) 时钟添加到 nvidia-smi -q 的时钟和最大时钟显示中

* 将内存温度输出添加到 nvidia-smi dmon

* 添加了 --lock-gpu-clock 和 --reset-gpu-clock 命令，以锁定到提供的最接近的最小/最大 GPU 时钟频率，并重置时钟频率

* 添加了 --cuda-clocks 以覆盖或恢复默认 CUDA 时钟频率

* === nvidia-smi v346 更新版本和 v352 版本之间的更改 ===

* 添加了拓扑支持，以显示每个 GPU 的关联性

* 添加了拓扑支持，以显示给定级别的相邻 GPU

* 添加了拓扑支持，以显示两个给定 GPU 之间的路径

* 添加了 "nvidia-smi pmon" 命令行，用于滚动格式的进程监控

* 添加了 "--debug" 选项，以生成加密的调试日志，用于向 NVIDIA 提交错误

* 修复了 Windows WDDM 模式下已用/可用内存的报告

* 会计统计信息已更新，以包括正在运行和已终止的进程。正在运行的进程的执行时间报告为 0，并在进程终止时更新为实际值。

* === nvidia-smi v340 更新版本和 v346 版本之间的更改 ===

* 添加了 PCIe 重放计数器的报告

* 添加了通过 nvidia-smi 报告图形进程的支持

* 添加了 PCIe 利用率的报告

* 添加了 dmon 命令行，用于滚动格式的设备监控

* 添加了 daemon 命令行，以在后台运行并作为守护程序进程监控设备。在 /var/log/nvstats/ 生成带日期戳的日志文件

* 添加了 replay 命令行，以重放/提取守护程序工具生成的统计信息文件

* === nvidia-smi v331 更新版本和 v340 版本之间的更改 ===

* 添加了温度阈值信息的报告。

* 添加了品牌信息 (例如 Tesla、Quadro 等) 的报告

* 添加了对 K40d 和 K80 的支持。

* 添加了对样本 (功耗、利用率、时钟频率更改) 的最大值、最小值和平均值的报告。示例命令行: nvidia-smi -q -d power,utilization, clock

* 添加了 nvidia-smi stats 接口，用于收集统计信息，例如功耗、利用率、时钟频率更改、xid 事件和 perf capping 计数器，每个样本都附加了时间概念。示例命令行: nvidia-smi stats

* 添加了支持，以集体报告多个 GPU 的指标。与逗号分隔的 "-i" 选项一起使用。示例: nvidia-smi -i 0,1,2

* 添加了支持，以显示 GPU 编码器和解码器利用率

* 添加了 nvidia-smi topo 接口，以显示 GPUDirect 通信矩阵 (实验性)

* 添加了支持，以显示 GPU 板 ID 以及它是否是多 GPU 板

* 从 XML 输出中删除了用户定义的限制原因

* === nvidia-smi v5.319 更新版本和 v331 版本之间的更改 ===

* 添加了次要版本号的报告。

* 添加了 BAR1 内存大小的报告。

* 添加了桥接芯片固件的报告。

* === nvidia-smi v4.319 Production 版本和 v4.319 Update 版本之间的更改 ===

* 添加了新的 --applications-clocks-permission 开关，以更改设置和重置应用程序时钟频率的权限要求。

* === nvidia-smi v4.304 版本和 v4.319 Production 版本之间的更改 ===

* 添加了显示活动状态的报告，并更新了文档以阐明它与显示模式和显示活动状态的区别

* 为了在多 GPU 板上保持一致性，nvidia-smi -L 始终显示 UUID 而不是序列号

* 添加了机器可读的选择性报告。请参阅 nvidia-smi -h 的选择性查询选项部分

* 添加了页面退休信息的查询。请参阅 --help-query-retired-pages 和 -d PAGE_RETIREMENT

* 将时钟频率限制原因用户定义的时钟频率重命名为应用程序时钟频率设置

* 发生错误时，返回代码对于每个错误类别都有不同的非零值。请参阅返回值部分

* nvidia-smi -i 现在可以在系统中的其他 GPU 出现问题时查询健康 GPU 的信息

* 指向 GPU 问题的消息都打印故障 GPU 的 pci 总线 ID

* 用于以高于每秒一次的速率查询信息的新标志 --loop-ms (可能对系统性能产生负面影响)

* 添加了会计处理进程的查询。请参阅 --help-query-accounted-apps 和 -d ACCOUNTING

* 将强制执行的功率限制添加到查询输出中

* === nvidia-smi v4.304 RC 版本和 v4.304 Production 版本之间的更改 ===

* 添加了 GPU 操作模式 (GOM) 的报告

* 添加了新的 --gom 开关以设置 GPU 操作模式

* === nvidia-smi v3.295 版本和 v4.304 RC 版本之间的更改 ===

* 由于用户反馈，重新格式化了非详细输出。从表中删除了待处理信息。

* 如果由于内核模块未接收到中断而导致初始化失败，则打印有用的消息

* 当系统中不存在 NVML 共享库时，更好的错误处理

* 添加了新的 --applications-clocks 开关

* 为 --display 开关添加了新过滤器。使用 -d SUPPORTED_CLOCKS 运行以列出 GPU 上可能的时钟频率

* 在报告可用内存时，从四舍五入的总内存和已用内存中计算得出，以便值加起来

* 添加了功率管理限制约束和默认限制的报告

* 添加了新的 --power-limit 开关

* 添加了纹理内存 ECC 错误的报告

* 添加了时钟频率限制原因的报告

* === nvidia-smi v2.285 版本和 v3.295 版本之间的更改 ===

* 更清晰的运行命令 (如更改计算模式) 的错误报告

* 一次在多个 GPU 上运行命令时，N/A 错误被视为警告。

* nvidia-smi -i 现在也支持 UUID

* UUID 格式已更改为与 UUID 标准匹配，并将报告不同的值。

=== nvidia-smi v2.0 和 v2.285 之间的更改 ===

* 报告 VBIOS 版本。

* 添加 -d/--display 标志以过滤部分数据

* 添加 PCI 子系统 ID 的报告

* 更新文档以表明我们支持 M2075 和 C2075

* 使用 -u 开关报告 HIC HWBC 固件版本

* 报告 max(P0) 时钟（在当前时钟旁边）

* 添加 --dtd 标志以打印设备或单元 DTD

* 添加 NVIDIA 驱动程序未运行时显示的消息

* 添加 PCIe 链接代数（最大和当前）以及链接宽度（最大和当前）的报告。

* 在非管理员身份下可以获取挂起的驱动程序模型

* 添加在 Windows 访客帐户上运行 nvidia-smi 的支持

* 在不使用 -q 命令的情况下运行 nvidia-smi 将输出 -q 的非详细版本而不是帮助

* 修复了 -l/--loop= 参数的解析（默认值 0，到大值）

* 更改了 pciBusId 的格式（更改为 XXXX:XX:XX.X - 此更改在 280 中可见）

* 对 -i 命令的 busId 解析限制较少。您可以传递 0:2:0.0 或 0000:02:00 以及其他变体

* 更改了版本控制方案以包含“驱动程序版本”

* XML 格式始终符合 DTD，即使发生错误情况也是如此

* 添加了对单比特和双比特 ECC 事件以及 XID 错误的支持（默认启用，-l 标志禁用，-x 标志启用）

* 添加了设备重置 -r --gpu-reset 标志

* 添加了计算运行进程的列表

* 将 power state 重命名为 performance state。仅在 XML 输出中存在已弃用的支持。

* 更新了 DTD 版本号至 2.0 以匹配更新后的 XML 输出

另请参阅

在 Linux 上，驱动程序 README 安装为 /usr/share/doc/NVIDIA_GLX-1.0/README.txt

作者

NVIDIA 公司