nvidia-smi - NVIDIA 系统管理界面程序
nvidia-smi [选项1 [参数1]] [选项2 [参数2]] ...
nvidia-smi (也称为 NVSMI) 为 NVIDIA 的 Tesla、Quadro、GRID 和 GeForce 设备(从 Fermi 及更高架构系列)提供监控和管理功能。GeForce Titan 系列设备支持大多数功能,但其余 GeForce 品牌设备的信息非常有限。NVSMI 是一款跨平台工具,支持所有标准的 NVIDIA 驱动程序支持的 Linux 发行版,以及从 Windows Server 2008 R2 开始的 64 位 Windows 版本。指标可以直接通过 stdout 供用户使用,也可以通过 CSV 和 XML 格式的文件提供,以用于脚本编写。
请注意,NVSMI 的大部分功能由底层的基于 C 的 NVML 库提供。有关 NVML 的更多信息,请参阅下面的 NVIDIA 开发者网站链接。还提供基于 NVML 的 Python 绑定。
NVSMI 的输出不保证向后兼容。但是,NVML 和 Python 绑定都是向后兼容的,并且在编写任何必须跨 NVIDIA 驱动程序版本维护的工具时,应作为首选。
NVML SDK: http://developer.nvidia.com/nvidia-management-library-nvml/
Python 绑定: http://pypi.python.org/pypi/nvidia-ml-py/
打印用法信息并退出。
打印版本信息并退出。
列出系统中每个 NVIDIA GPU 及其 UUID。
列出系统中每个排除的 NVIDIA GPU 及其 UUID。
指定目标 GPU。
日志记录到指定文件,而不是 stdout。
以指定的秒间隔探测,直到按下 Ctrl+C。
显示 GPU 或单元信息。显示的信息包括本文档的(GPU 属性)或(单元属性)部分中列出的所有数据。某些设备和/或环境不支持所有可能的信息。任何不支持的数据在输出中都以“N/A”表示。默认情况下,显示所有可用 GPU 或单元的信息。使用 -i 选项将输出限制为单个 GPU 或单元。
显示单元数据而不是 GPU 数据。单元数据仅适用于 NVIDIA S 级 Tesla 机箱。
显示单个指定 GPU 或单元的数据。指定的 ID 可以是 GPU/单元在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(十六进制格式为 domain:bus:device.function)。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举顺序不能保证在重启之间保持一致,并且板序列号可能在同一板上的多个 GPU 之间共享。
将查询输出重定向到指定文件,而不是默认的 stdout。指定的文件将被覆盖。
生成 XML 输出,而不是默认的人类可读格式。GPU 和单元查询输出都符合相应的 DTD。这些 DTD 可以通过 --dtd 标志获得。
与 -x 一起使用。将 DTD 嵌入到 XML 输出中。
生成加密的调试日志,用于向 NVIDIA 提交错误报告。
仅显示选定的信息:MEMORY、UTILIZATION、ECC、TEMPERATURE、POWER、CLOCK、COMPUTE、PIDS、PERFORMANCE、SUPPORTED_CLOCKS、PAGE_RETIREMENT、ACCOUNTING、ENCODER_STATS、SUPPORTED_GPU_TARGET_TEMP、VOLTAGE、FBC_STATS、ROW_REMAPPER、RESET_STATUS、GSP_FIRMWARE_VERSION、POWER_SMOOTHING、POWER_PROFILES。标志可以用逗号组合,例如“MEMORY,ECC”。功率、利用率和时钟显示类型也返回最大值、最小值和平均值的采样数据。不适用于 -u/--unit 或 -x/--xml-format 标志。
以指定的间隔连续报告查询数据,而不是默认的只报告一次。应用程序将在查询之间休眠。请注意,如果在 Linux 上未指定 -x 标志,则 ECC 错误或 Xid 错误事件将在休眠期间打印出来。在任何时候按下 Ctrl+C 都会中止循环,否则循环将无限期运行。如果 -l 形式未指定参数,则使用 5 秒的默认间隔。
与 -l,--loop 相同,但以毫秒为单位。
允许调用者传递要查询的属性的显式列表。
关于 GPU 的信息。传递要查询的属性的逗号分隔列表。例如,--query-gpu=pci.bus_id,persistence_mode。调用 --help-query-gpu 获取更多信息。
支持的时钟列表。调用 --help-query-supported-clocks 获取更多信息。
当前活动的计算进程列表。调用 --help-query-compute-apps 获取更多信息。
已计费的计算进程列表。调用 --help-query-accounted-apps 获取更多信息。此查询在 vGPU 主机上不受支持。
已退役的 GPU 设备内存页列表。调用 --help-query-retired-pages 获取更多信息。
关于重新映射的行信息。调用 --help-query-remapped-rows 获取更多信息。
格式选项的逗号分隔列表
csv - 逗号分隔值 (必需)
noheader - 跳过包含列标题的第一行
nounits - 不打印数值的单位
显示单个指定 GPU 的数据。指定的 ID 可以是 GPU 在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(十六进制格式为 domain:bus:device.function)。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举顺序不能保证在重启之间保持一致,并且板序列号可能在同一板上的多个 GPU 之间共享。
将查询输出重定向到指定文件,而不是默认的 stdout。指定的文件将被覆盖。
以指定的间隔连续报告查询数据,而不是默认的只报告一次。应用程序将在查询之间休眠。请注意,如果在 Linux 上未指定 -x 标志,则 ECC 错误或 Xid 错误事件将在休眠期间打印出来。在任何时候按下 Ctrl+C 都会中止循环,否则循环将无限期运行。如果 -l 形式未指定参数,则使用 5 秒的默认间隔。
与 -l,--loop 相同,但以毫秒为单位。
设置目标 GPU 的持久模式。有关持久模式的描述,请参阅(GPU 属性)部分。需要 root 权限。除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。此操作的效果是立即生效的。但是,它不会在重启后持久存在。每次重启后,持久模式将默认为“禁用”。仅在 Linux 上可用。
设置目标 GPU 的 ECC 模式。有关 ECC 模式的描述,请参阅(GPU 属性)部分。需要 root 权限。除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。此设置在下次重启后生效,并且是持久的。
重置目标 GPU 的 ECC 错误计数器。有关 ECC 错误计数器类型的描述,请参阅(GPU 属性)部分。可用参数为 0|VOLATILE 或 1|AGGREGATE。需要 root 权限。除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。此操作的效果是立即生效的。Ampere+ 不支持清除聚合计数。
设置目标 GPU 的计算模式。有关计算模式的描述,请参阅(GPU 属性)部分。需要 root 权限。除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。此操作的效果是立即生效的。但是,它不会在重启后持久存在。每次重启后,计算模式将重置为“DEFAULT”。
启用或禁用 TCC 驱动程序模型。仅适用于 Windows。需要管理员权限。如果连接了显示器,-dm 将失败,但 -fdm 将强制更改驱动程序模型。除非使用 -i 参数指定单个 GPU,否则将影响所有 GPU。需要重启才能使更改生效。有关 Windows 驱动程序模型的更多信息,请参阅 驱动程序模型。
设置 GPU 操作模式:0/ALL_ON、1/COMPUTE、2/LOW_DP。在 Kepler 系列的 GK110 M 级和 X 级 Tesla 产品上受支持。在 Quadro 和 Tesla C 级产品上不受支持。LOW_DP 和 ALL_ON 是 GeForce Titan 设备上唯一支持的模式。需要管理员权限。有关 GOM 的更多信息,请参阅 GPU 操作模式。GOM 更改在重启后生效。将来可能会取消重启要求。仅计算 GOM 不支持 WDDM(Windows 显示驱动程序模型)
触发一个或多个 GPU 的重置。可用于清除 GPU 硬件和软件状态,以应对需要机器重启的情况。如果发生双位 ECC 错误,通常很有用。可选的 -i 开关可用于指定一个或多个特定设备。如果没有此选项,则会重置所有 GPU。需要 root 权限。不能有任何应用程序正在使用这些设备(例如 CUDA 应用程序、图形应用程序(如 X 服务器)、监控应用程序(如 nvidia-smi 的其他实例))。如果无法进行单个 GPU 重置,则系统中的任何其他 GPU 上也不能运行任何计算应用程序。
从 NVIDIA Ampere 架构开始,具有 NVLink 连接的 GPU 可以单独重置。在 Ampere NVSwitch 系统上,需要 Fabric Manager 来促进重置。在 Hopper 及更高版本的 NVSwitch 系统上,消除了对 Fabric Manager 的依赖以促进重置。
如果 Fabric Manager 未运行,或者任何要重置的 GPU 基于 NVIDIA Ampere 架构之前的架构,则任何与要重置的 GPU 具有 NVLink 连接的 GPU 也必须在同一命令中重置。这可以通过省略 -i 开关或使用 -i 开关来指定要重置的 GPU 来完成。如果 -i 选项未指定要重置的 NVLink GPU 的完整集合,则此命令将发出错误,标识必须包含在重置命令中的其他 GPU。
GPU 重置不能保证在所有情况下都有效。目前不建议在生产环境中使用。在某些情况下,板上可能存在硬件组件在重置请求后无法恢复到初始状态。与 Kepler 相比,在 Fermi 代产品上更可能看到这种情况,如果在挂起的 GPU 上执行重置,则更可能看到这种情况。
重置后,建议在使用前验证每个重置 GPU 的健康状况。如果任何 GPU 不健康,则应通过电源循环节点来启动完全重置。
MIG 启用的 vGPU 访客不支持 GPU 重置操作。
访问 http://developer.nvidia.com/gpu-deployment-kit 下载 GDK。
切换 GPU 虚拟化模式。将 GPU 虚拟化模式设置为 3/VGPU 或 4/VSGA。GPU 的虚拟化模式只能在 GPU 在 hypervisor 上运行时设置。
将 <minGpuClock,maxGpuClock> 时钟指定为一对(例如 1500,1500),定义最接近的期望锁定 GPU 时钟速度(以 MHz 为单位)。输入也可以使用单个期望时钟值(例如 <GpuClockValue>)。可选地,可以提供 --mode 来指定时钟锁定模式。在 Volta+ 上受支持。需要 root 权限
此模式是默认时钟锁定模式,并提供硬件支持的最高频率精度。
时钟锁定算法利用闭环控制器来实现频率精度,从而为某些类别的应用程序提高每瓦特性能。由于闭环控制器的收敛延迟,频率精度可能略低于默认模式 0。
将 <minMemClock,maxMemClock> 时钟指定为一对(例如 5100,5100),定义期望的锁定内存时钟速度范围(以 MHz 为单位)。输入也可以是单个期望时钟值(例如 <MemClockValue>)。
将 GPU 时钟重置为默认值。在 Volta+ 上受支持。需要 root 权限。
将内存时钟重置为默认值。在 Volta+ 上受支持。需要 root 权限。
将最大 <memory,graphics> 时钟指定为一对(例如 2000,800),定义 GPU 在 GPU 上运行应用程序时的速度。在基于 Maxwell 的 GeForce 和 Tesla/Quadro/Titan 设备中的 Kepler+ 系列中受支持。需要 root 权限。
将应用程序时钟重置为默认值。在基于 Maxwell 的 GeForce 和 Tesla/Quadro/Titan 设备中的 Kepler+ 系列中受支持。需要 root 权限。
指定内存时钟,该时钟定义最接近的期望内存时钟(以 MHz 为单位)。内存时钟在下次 GPU 初始化时生效。这可以通过卸载并重新加载内核模块来保证。需要 root 权限。
将内存时钟重置为默认值。需要卸载和重新加载驱动程序才能生效。这可以通过卸载并重新加载内核模块来完成。需要 root 权限。
指定最大功率限制(以瓦特为单位)。接受整数和浮点数。它接受可选参数 --scope。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。值需要在 nvidia-smi 报告的最小和最大功率限制之间。
指定功率限制的范围。以下是选项:0/GPU:仅更改 GPU 的功率限制 1/模块:更改包含多个组件(例如 GPU 和 CPU)的模块的功率。
覆盖或恢复默认 CUDA 时钟。可用参数为 0|RESTORE_DEFAULT 或 1|OVERRIDE。
启用或禁用 GPU 记帐。通过 GPU 记帐,可以跟踪单个进程生命周期内资源的使用情况。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。可用参数为 0|DISABLED 或 1|ENABLED。
清除迄今为止已记帐的所有进程。仅在 Kepler 系列的受支持设备上可用。需要管理员权限。
将默认自动加速策略设置为 0/DISABLED 或 1/ENABLED,仅在最后一个加速客户端退出后强制执行更改。仅在 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备上可用。需要 root 权限。
允许非管理员/root 用户控制自动加速模式。可用参数为 0|UNRESTRICTED、1|RESTRICTED。仅在 Kepler+ 系列的某些 Tesla 设备和基于 Maxwell 的 GeForce 设备上可用。需要 root 权限。
启用或禁用多实例 GPU 模式。仅在基于 NVIDIA Ampere 架构的设备上受支持。需要 root 权限。可用参数为 0|DISABLED 或 1|ENABLED。
设置 GPU 的目标温度(摄氏度)。需要管理员权限。目标温度应在 GPU 支持的限制范围内。这些限制可以使用查询选项和 SUPPORTED_GPU_TARGET_TEMP 检索。
修改单个指定的 GPU。指定的 ID 可以是 GPU/单元在驱动程序返回的自然枚举中的从 0 开始的索引、GPU 的板序列号、GPU 的 UUID 或 GPU 的 PCI 总线 ID(十六进制格式为 domain:bus:device.function)。建议希望保持一致性的用户使用 UUID 或 PCI 总线 ID,因为设备枚举顺序不能保证在重启之间保持一致,并且板序列号可能在同一板上的多个 GPU 之间共享。
对于警告返回非零错误代码。
将单元正面和背面的 LED 指示灯状态设置为指定的颜色。有关 LED 状态的描述,请参阅(单元属性)部分。允许的颜色为 0|GREEN 和 1|AMBER。需要 root 权限。
修改单个指定的单元。指定的 ID 是单元在驱动程序返回的自然枚举中的从 0 开始的索引。
显示设备或单元 DTD。
将查询输出重定向到指定文件,而不是默认的 stdout。指定的文件将被覆盖。
显示单元 DTD 而不是设备 DTD。
显示关于系统的拓扑信息。使用“nvidia-smi topo -h”获取更多信息。仅限 Linux。显示 NVML 能够检测到的所有 GPU,但 CPU 和 NUMA 节点亲和性信息仅显示 Kepler 或更新架构的 GPU。注意:GPU 枚举与 NVML 相同。
显示和修改 GPU 排空状态。排空状态是指 GPU 不再接受新客户端的状态,用于准备关闭 GPU 电源。使用“nvidia-smi drain -h”获取更多信息。仅限 Linux。
显示 nvlink 信息。使用“nvidia-smi nvlink -h”获取更多信息。
查询和控制时钟行为。使用“nvidia-smi clocks --help”获取更多信息。
显示有关 GRID 虚拟 GPU 的信息。使用“nvidia-smi vgpu -h”获取更多信息。
提供 MIG 管理的控制。“nvidia-smi mig -h”获取更多信息。
提供 boost sliders 管理的控制。“nvidia-smi boost-slider -h”获取更多信息。
提供 power hint 的查询。“nvidia-smi power-hint -h”获取更多信息。
提供机密计算的控制和查询。“nvidia-smi conf-compute -h”获取更多信息。
提供功率平滑的控制和信息。“nvidia-smi power-smoothing -h”获取更多信息。
工作负载功率配置文件的控制和信息。“nvidia-smi power-profiles -h”获取更多信息。
显示编码器会话信息。“nvidia-smi encodersessions -h”获取更多信息。
返回值反映操作是成功还是失败,以及失败的原因。
返回值 0 - 成功
返回值 2 - 提供的参数或标志无效
返回值 3 - 目标设备上没有请求的操作
返回值 4 - 当前用户没有访问此设备或执行此操作的权限
返回值 6 - 查找对象的查询不成功
返回值 8 - 设备的外部电源线未正确连接
返回值 9 - NVIDIA 驱动程序未加载
返回值 10 - NVIDIA 内核检测到 GPU 存在中断问题
返回值 12 - 找不到或无法加载 NVML 共享库
返回值 13 - 本地版本的 NVML 未实现此功能
返回值 14 - infoROM 已损坏
返回值 15 - GPU 已从总线上脱落或无法访问
返回值 255 - 发生其他错误或内部驱动程序错误
以下列表描述了 -q 设备查询选项返回的所有可能数据。除非另有说明,否则所有数值结果均为十进制且无单位。
调用 nvidia-smi 时的当前系统时间戳。格式为“星期几 月 日 HH:MM:SS 年”。
已安装的 NVIDIA 显示驱动程序的版本。这是一个字母数字字符串。
系统上安装的 CUDA 工具包的版本。这是一个字母数字字符串。
系统中 NVIDIA GPU 的数量。
GPU 的官方产品名称。这是一个字母数字字符串。适用于所有产品。
GPU 的官方品牌。这是一个字母数字字符串。适用于所有产品。
GPU 的官方架构名称。这是一个字母数字字符串。适用于所有产品。
指示物理显示器(例如,监视器)当前是否连接到任何 GPU 连接器的标志。“已启用”表示已连接显示器。“已禁用”表示未连接。
指示是否在 GPU 上初始化了显示器(例如,在设备上分配了内存用于显示)的标志。即使没有物理连接监视器,显示器也可能是活动的。“已启用”表示活动显示器。“已禁用”表示未活动。
指示是否为 GPU 启用了持久模式的标志。值为“已启用”或“已禁用”。启用持久模式后,即使没有活动客户端(例如 X11 或 nvidia-smi)存在,NVIDIA 驱动程序仍保持加载状态。这最大限度地减少了运行依赖应用程序(例如 CUDA 程序)相关的驱动程序加载延迟。适用于所有支持 CUDA 的产品。仅限 Linux。
指示当前活动的寻址模式的字段。值为“ATS”或“HMM”或“None”。当模式为“ATS”时,系统分配的内存(如 malloc)可以通过地址转换服务从 GPU 寻址。这意味着 CPU 和 GPU 有效地使用同一组页表。当模式为“HMM”时,系统分配的内存(如 malloc)可以通过基于软件的 CPU 页表镜像(在 GPU 上)从 GPU 寻址。当模式为“None”时,ATS 和 HMM 均未激活。仅限 Linux。
MIG 模式配置状态
当前使用的 MIG 模式 - NA/已启用/已禁用
MIG 模式的待定配置 - 已启用/已禁用
指示是否为 GPU 启用了记帐模式的标志。值为“已启用”或“已禁用”。启用记帐后,将计算在 GPU 上运行的每个计算进程的统计信息。可以在进程的生命周期内或进程终止后查询统计信息。进程的执行时间在进程处于运行状态时报告为 0,并在进程终止后更新为实际执行时间。有关更多信息,请参阅 --help-query-accounted-apps。
返回循环缓冲区的大小,该缓冲区保存可以查询记帐统计信息的进程列表。这是在有关最旧进程的信息被有关新进程的信息覆盖之前,将存储记帐信息的最大进程数。
在 Windows 上,支持 TCC 和 WDDM 驱动程序模型。可以使用(-dm)或(-fdm)标志更改驱动程序模型。TCC 驱动程序模型针对计算应用程序进行了优化。即,使用 TCC 时,内核启动时间将更快。WDDM 驱动程序模型专为图形应用程序设计,不建议用于计算应用程序。Linux 不支持多种驱动程序模型,并且始终具有值“N/A”。
当前使用的驱动程序模型。在 Linux 上始终为“N/A”。
下次重启时将使用的驱动程序模型。在 Linux 上始终为“N/A”。
此号码与物理打印在每个板上的序列号匹配。它是一个全局唯一的不可变的字母数字值。
此值是 GPU 的全局唯一的不可变的字母数字标识符。它不对应于板上的任何物理标签。
设备的次要号码是这样的,每个 GPU 的 Nvidia 设备节点文件都将具有 /dev/nvidia[次要号码] 的形式。仅在 Linux 平台上可用。
GPU 板的 BIOS。
此 GPU 是否是多 GPU 板的一部分。
驱动程序分配的唯一板 ID。如果两个或多个 GPU 具有相同的板 ID,并且上面的“多 GPU”字段为真,则这些 GPU 在同一块板上。
GPU 板的唯一零件号
GPU 的唯一零件号
GPU 的唯一 FRU 零件号
平台信息是计算托盘平台特定信息。它们是 GPU 的位置索引和平台识别信息。
包含此 GPU 的机箱的序列号。
包含此 GPU 的机箱中的插槽号(包括交换机)。
包含此 GPU 的机箱中计算插槽内的托盘索引(不包括交换机)。
包含此 GPU 的插槽内的节点索引。
平台指示的 NVLink 对等类型(例如,是否存在交换机)。
节点内此 GPU 的 ID。
GPU 板的 inforom 存储中每个对象的版本号。inforom 是 GPU 的配置和状态数据的小型持久存储。所有 inforom 版本字段都是数字。了解这些版本号可能很有用,因为某些 GPU 功能仅在具有特定版本或更高版本的 inforom 时才可用。
如果以下任何字段返回未知错误,则执行额外的 Inforom 验证检查并显示相应的警告消息。
infoROM 映像的全局版本。映像版本就像 VBIOS 版本一样,唯一地描述了板上刷写的 infoROM 的确切版本,而 infoROM 对象版本仅是指示支持的功能。
OEM 配置数据的版本。
ECC 记录数据的版本。
电源管理数据的版本。
关于将黑盒数据刷新到 inforom 存储的信息。
当前运行期间 BBX 对象最新刷新的时间戳。
当前运行期间 BBX 对象最新刷新的持续时间。
GOM 允许通过禁用 GPU 功能来降低功耗并优化 GPU 吞吐量。
每个 GOM 都旨在满足特定的用户需求。
在“全部开启”模式下,所有功能都已启用并以全速运行。
“计算”模式专为仅运行计算任务而设计。不允许图形操作。
“低双精度”模式专为运行不需要高带宽双精度的图形应用程序而设计。
可以使用(--gom)标志更改 GOM。
在 Kepler 系列的 GK110 M 级和 X 级 Tesla 产品上受支持。在 Quadro 和 Tesla C 级产品上不受支持。低双精度和全部开启模式是支持的 GeForce Titan 产品唯一可用的模式。
当前使用的 GOM。
下次重启时将使用的 GOM。
GPU 的 C2C 模式。
GPU 的重置状态。此功能已弃用。
请求的功能已弃用
请求的功能已弃用
为清除先前发生的故障而采取的操作。它不用于确定触发恢复操作的故障。
可能的值:None、Reset、Reboot、Drain P2P、Drain and Reset
None
不需要恢复操作
Reset
示例场景 - 未包含的 HBM/SRAM UCE
GPU 遇到需要重置才能恢复的故障。
终止所有 GPU 进程,使用“nvidia-smi -r”重置 GPU,然后可以通过启动新的 GPU 进程再次使用 GPU。
Reboot
示例场景 - UVM 致命错误
GPU 遇到的故障可能使操作系统处于不一致状态。
重启操作系统以将操作系统恢复到一致状态。
需要节点重启。
应用程序无法在不重启节点的情况下重新启动
OS 温重启就足够了(无需 AC/DC 循环)
Drain P2P
示例场景 - N/A
GPU 遇到需要静止所有对等流量的故障。
终止所有进行对等流量的 GPU 进程并禁用 UVM 持久模式。
禁用作业调度(没有新作业),在方便时停止所有应用程序,如果启用了持久模式,则禁用它
一旦所有对等流量都排空,再次查询 NVML_FI_DEV_GET_GPU_RECOVERY_ACTION,这将返回其他操作之一。
如果仍然是 DRAIN_P2P,则 GPU 重置。
Drain and Reset
示例场景 - 包含的 HBM UCE
建议重置。
GPU 遇到的故障导致 GPU 暂时以降低的容量运行,例如其帧缓冲区内存的一部分已脱机,或者其某些 MIG 分区已关闭。
不应在 GPU 上调度新的工作,但未受影响的现有工作可以安全地继续,直到完成或达到良好的检查点。
可以安全地重启应用程序(由于动态页面脱机,内存容量将减少),但最终需要重置(以获取行重映射)。
仅针对 UCE 行重映射断言。
在所有现有工作耗尽后,重置 GPU 以恢复其全部容量。
GSP 的固件版本。这是一个字母数字字符串。
设备的基本 PCI 信息。当系统中的卡被添加/移除/移动时,其中一些信息可能会发生变化。适用于所有产品。
PCI 总线号,十六进制表示
PCI 设备号,十六进制表示
PCI 域号,十六进制表示
PCI 基本类代码,十六进制表示
PCI 子类代码,十六进制表示
PCI 供应商设备 ID,十六进制表示
PCI 总线 ID,格式为“域:总线:设备.功能”,十六进制表示
PCI 子系统 ID,十六进制表示
PCIe 链路代数和总线宽度
此 GPU 和系统配置可能实现的最大链路代数和宽度。例如,如果 GPU 支持比系统更高的 PCIe 代数,则此项报告系统 PCIe 代数。
当前的链路代数和宽度。当 GPU 未使用时,这些值可能会降低。
与设备上的桥接芯片相关的信息。桥接芯片固件仅存在于某些板卡上,对于一些较新的多 GPU 板卡可能会显示“N/A”。
桥接芯片的类型。如果不存在,则报告为 N/A。
桥接芯片的固件版本。如果不存在,则报告为 N/A。
自重置以来的 PCIe 重传次数。
自重置以来的 PCIe 重传次数翻转次数。连续 4 次重传后会发生重传次数翻转,并导致链路重新训练。
过去 20 毫秒内,GPU 为中心的跨 PCIe 总线的传输吞吐量,单位为 MB/s。仅在 Maxwell 架构及更新架构上受支持。
过去 20 毫秒内,GPU 为中心的跨 PCIe 总线的接收吞吐量,单位为 MB/s。仅在 Maxwell 架构及更新架构上受支持。
GPU 出站/入站操作的 PCIe 原子操作能力。
风扇转速值是设备风扇当前预期运行的产品最大噪声容限风扇转速的百分比。在某些情况下,此值可能超过 100%。注意:报告的速度是预期的风扇转速。如果风扇被物理阻塞而无法旋转,则此输出将与实际风扇转速不符。许多部件不报告风扇转速,因为它们依赖于周围外壳中的风扇进行冷却。适用于所有带专用风扇的独立产品。
GPU 的当前性能状态。状态范围从 P0(最大性能)到 P12(最小性能)。
检索有关降低时钟频率的因素的信息。
如果所有事件原因都返回为“非活动”,则表示时钟以尽可能高的频率运行。
GPU 上没有任何运行,时钟正在降至空闲状态。此限制器可能会在以后的版本中移除。
GPU 时钟受到应用程序时钟设置的限制。例如,可以使用 nvidia-smi --applications-clocks= 进行更改
软件功耗缩放算法正在将时钟频率降低到请求的时钟频率以下,因为 GPU 功耗过高。例如,可以使用 nvidia-smi --power-limit= 更改软件功耗上限限制
硬件减速(将核心时钟频率降低 2 倍或更多)已启用。硬件热减速和硬件功耗制动将在 Pascal+ 及更高版本上显示。
这是一个指示器,指示:
* 温度过高(硬件热减速)
* 外部功耗制动断言被触发(例如,由系统电源)(硬件功耗制动减速)
* 功耗过高,快速触发保护正在降低时钟频率
软件热限制算法正在将时钟频率降低到请求的时钟频率以下,因为 GPU 温度高于最大工作温度
一个标志,指示 GPU 是否启用了稀疏操作模式。值为“已启用”或“已禁用”。如果不支持,则报告为“N/A”。
板载帧缓冲区内存信息。报告的总内存可能会受到 ECC 状态的影响。如果 ECC 确实影响了总可用内存,则由于必需的奇偶校验位,内存会减少几个百分点。即使 GPU 上没有活动工作,驱动程序也可能为内部使用保留少量内存。在 GPU 是 NUMA 节点的系统上,nvidia-smi 提供的 FB 内存利用率的准确性取决于操作系统的内存记账。这是因为 FB 内存由操作系统而不是 NVIDIA GPU 驱动程序管理。通常,即使进程终止,从 FB 内存分配的页面也不会被释放,以提高性能。在操作系统内存压力很大的情况下,它可能会求助于使用 FB 内存。此类操作可能会导致内存报告准确性出现差异。适用于所有产品。
FB 内存的总大小。
FB 内存的已保留大小。
FB 内存的已使用大小。
FB 内存的可用大小。
BAR1 用于映射 FB(设备内存),以便 CPU 或第三方设备(PCIe 总线上的点对点)可以直接访问它。
BAR1 内存的总大小。
BAR1 内存的已使用大小。
BAR1 内存的可用大小。
计算模式标志指示单个或多个计算应用程序是否可以在 GPU 上运行。
“默认”表示每个设备允许多个上下文。
“独占进程”表示每个设备只允许一个上下文,可以同时从多个线程使用。
“禁止”表示每个设备不允许任何上下文(没有计算应用程序)。
“EXCLUSIVE_PROCESS”是在 CUDA 4.0 中添加的。之前的 CUDA 版本仅支持一种独占模式,该模式等效于 CUDA 4.0 及更高版本中的“EXCLUSIVE_THREAD”。
适用于所有支持 CUDA 的产品。
利用率报告每个 GPU 在一段时间内的繁忙程度,可用于确定应用程序在系统中使用了多少 GPU。注意:在启用 MIG 的 GPU 上,当前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。
注意:在驱动程序初始化期间启用 ECC 时,可能会看到较高的 GPU 和内存利用率读数。这是由 ECC 内存擦洗机制在驱动程序初始化期间执行引起的。
在过去的采样周期内,一个或多个内核在 GPU 上执行的时间百分比。采样周期可能在 1 秒到 1/6 秒之间,具体取决于产品。
在过去的采样周期内,全局(设备)内存正在被读取或写入的时间百分比。采样周期可能在 1 秒到 1/6 秒之间,具体取决于产品。
在过去的采样周期内,GPU 的视频编码器正在使用的时间百分比。采样率是可变的,可以直接通过 nvmlDeviceGetEncoderUtilization() API 获取
在过去的采样周期内,GPU 的视频解码器正在使用的时间百分比。采样率是可变的,可以直接通过 nvmlDeviceGetDecoderUtilization() API 获取
在过去的采样周期内,GPU 的 JPEG 解码器正在使用的时间百分比。采样率是可变的,可以直接通过 nvmlDeviceGetJpgUtilization() API 获取
在过去的采样周期内,GPU 的 OFA(光流加速器)正在使用的时间百分比。采样率是可变的,可以直接通过 nvmlDeviceGetOfaUtilization() API 获取
编码器统计信息报告活动编码器会话的计数,以及此设备上所有这些活动会话的平均帧率 (FPS) 和平均延迟(以微秒为单位)。
此设备上的活动编码器会话总数。
此设备上所有活动编码器会话的平均每秒帧数 (FPS)。
此设备上所有活动编码器会话的平均延迟,单位为微秒。
一个标志,指示是否启用了 DRAM 加密支持。可能是“已启用”或“已禁用”。更改 DRAM 加密模式需要重启。需要 Inforom DRAM 加密对象。
GPU 当前运行的 DRAM 加密模式。
GPU 在下次重启后将运行的 DRAM 加密模式。
一个标志,指示是否启用了 ECC 支持。可能是“已启用”或“已禁用”。更改 ECC 模式需要重启。需要 Inforom ECC 对象版本 1.0 或更高版本。
GPU 当前运行的 ECC 模式。
GPU 在下次重启后将运行的 ECC 模式。
NVIDIA GPU 可以提供各种类型的 ECC 错误的错误计数。一些 ECC 错误是单位错误或双位错误,其中单位错误是可纠正的,而双位错误是不可纠正的。纹理内存错误可以通过重发来纠正,如果重发失败则不可纠正。这些错误在两个时间尺度(易失性和聚合性)上可用。单位 ECC 错误由硬件自动纠正,不会导致数据损坏。检测到双位错误但未纠正。有关双位错误发生时计算应用程序行为的信息,请参阅 Web 上的 ECC 文档。易失性错误计数器跟踪自上次驱动程序加载以来检测到的错误数。聚合错误计数无限期地持续存在,因此充当生命周期计数器。
关于易失性计数的说明:在 Windows 上,这是每个启动一次。在 Linux 上,这可能更频繁。在 Linux 上,当没有活动客户端存在时,驱动程序会卸载。因此,如果启用了持久模式,或者始终存在活动的驱动程序客户端(例如 X11),则 Linux 也会看到每次启动的行为。否则,每次运行计算应用程序时都会重置易失性计数。
Tesla 和 Quadro 产品 pre-volta 可以显示 ECC 错误总数,以及基于芯片上位置的错误细分。位置描述如下。聚合错误计数的基于位置的数据需要 Inforom ECC 对象版本 2.0。所有其他 ECC 计数都需要 ECC 对象版本 1.0。
在全局设备内存中检测到的错误。
在寄存器文件内存中检测到的错误。
在 L1 缓存中检测到的错误。
在 L2 缓存中检测到的错误。
在纹理内存中检测到的奇偶校验错误。
在整个芯片中检测到的错误总数。设备内存、寄存器文件、L1 缓存、L2 缓存和纹理内存的总和。
在 Turing 上,输出如下:
在任何 SRAM 中检测到的可纠正错误数
在任何 SRAM 中检测到的不可纠正错误数
在 DRAM 中检测到的可纠正错误数
在 DRAM 中检测到的不可纠正错误数
在 Ampere+ 上,SRAM 错误的分类已得到扩展。SRAM 错误现在根据哪个单元命中错误分类为奇偶校验或 SEC-DED(单错误可纠正/双错误可检测)。添加了一个直方图,用于对哪个单元命中 SRAM 错误进行分类。此外,还添加了一个标志,指示是否超过了特定 SRAM 的阈值。
在奇偶校验保护的 SRAM 中检测到的不可纠正错误数
在 SEC-DED 保护的 SRAM 中检测到的不可纠正错误数
L2 缓存中发生的错误
SM 中发生的错误
微控制器(PMU/GSP 等)中发生的错误
任何 PCIE 相关单元中发生的错误
发生在上述未涵盖的任何其他位置的错误
当 NVIDIA GPU 的 GPU 设备内存页面变得不可靠时,可以停用这些页面。当同一页面发生多个单位 ECC 错误或发生双位 ECC 错误时,可能会发生这种情况。当页面被停用时,NVIDIA 驱动程序会隐藏它,以便任何驱动程序或应用程序内存分配都无法访问它。
双位 ECC 由于双位 ECC 错误而停用的 GPU 设备内存页面的数量。
单位 ECC 由于多个单位 ECC 错误而停用的 GPU 设备内存页面的数量。
待处理 检查是否有任何 GPU 设备内存页面在下次重启时处于待处理黑名单状态。已停用但尚未列入黑名单的页面仍然可以分配,并可能导致进一步的可靠性问题。
当 NVIDIA GPU 的 GPU 设备内存行变得不可靠时,可以重映射这些行。当同一行上发生单个不可纠正的 ECC 错误或多个可纠正的 ECC 错误时,可能会发生这种情况。当一行被重映射时,NVIDIA 驱动程序会将故障行重映射到保留行。所有未来对该行的访问都将访问保留行而不是故障行。此功能在 Ampere+ 及更高版本上可用
可纠正错误 由于可纠正 ECC 错误而重映射的行数。
不可纠正错误 由于不可纠正 ECC 错误而重映射的行数。
待处理 指示行是否处于待处理重映射状态。必须重置 GPU 才能使重映射生效。
重映射失败发生 指示过去是否发生过行重映射失败。
Bank 重映射可用性直方图 每个内存 Bank 都有固定数量的保留行,可用于行重映射。直方图会将每个 Bank 的重映射可用性分类为最大、高、部分、低和无。最大可用性意味着所有保留行都可用于重映射,而无意味着没有保留行可用。由于可纠正行重映射可以被不可纠正行重映射驱逐,因此可纠正行重映射不计入可用性直方图。
来自板上温度传感器的读数。所有读数均以摄氏度为单位。并非所有产品都支持所有读取类型。特别是,以外壳风扇或被动冷却为模块外形的产品通常不提供温度读数。请参阅下面的限制。
T.Limit:T.Limit 传感器测量当前裕量,单位为摄氏度,表示到最高工作温度的距离。因此,它不是绝对温度读数,而是一个相对测量值。
并非所有产品都支持 T.Limit 传感器读数。
当支持时,nvidia-smi 将当前 T.Limit 温度报告为有符号值,该值向下计数。0°C 或更低的 T.Limit 温度表示 GPU 可能会根据热条件优化其时钟频率。此外,当支持 T.Limit 传感器时,可用的温度阈值也相对于 T.Limit(见下文)而不是绝对测量值报告。
核心 GPU 温度。适用于所有独立和 S 级产品。
当前裕量,单位为摄氏度,表示距离 GPU 最高工作温度的距离。
GPU 将关机的温度。
GPU 可能关机的 T.Limit 温度下限。由于关机只能由 GPU 最高温度触发,因此当前 T.Limit 可能比此阈值更负。
GPU 硬件将开始因热条件而优化时钟频率以进行冷却的温度。
GPU 硬件可能因热条件而优化其时钟频率的 T.Limit 温度下限。由于此时钟调整只能由 GPU 最高温度触发,因此当前 T.Limit 可能比此阈值更负。
GPU 软件将因热条件而优化其时钟频率的温度。
GPU 软件将因热条件而优化其时钟频率的 T.Limit 温度下限。
功耗读数有助于了解 GPU 的当前功耗以及影响该功耗的因素。当启用功耗管理时,GPU 会限制负载下的功耗,以通过操纵当前的性能状态来适应预定义的功耗范围。请参阅下面的可用性限制。请注意,功耗读数不适用于带有 BA 传感器板的 Pascal 及更高版本的 GPU。
功耗状态已弃用,并在 2.285 版本中重命名为性能状态。为了保持 XML 兼容性,在 XML 格式中,性能状态在两个位置都列出。
一个标志,指示是否启用了功耗管理。为“受支持”或“N/A”。需要 Inforom PWR 对象版本 3.0 或更高版本或 Kepler 设备。
整个板卡的上次测量的功耗,单位为瓦特。仅在支持功耗管理时可用。在 Ampere(GA100 除外)或更新的设备上,返回 1 秒内的平均功耗。在 GA100 和更旧的设备上,返回瞬时功耗。请注意,对于没有 INA 传感器的板卡,这指的是 GPU 的功耗,而不是整个板卡的功耗。
软件功耗限制,单位为瓦特。由软件(如 nvidia-smi)设置。仅在支持功耗管理时可用。需要 Inforom PWR 对象版本 3.0 或更高版本或 Kepler 设备。在 Kepler 设备上,可以使用 -pl,--power-limit= 开关调整功耗限制。
功耗管理算法的功耗上限,单位为瓦特。总板卡功耗由功耗管理算法操纵,使其保持在此值以下。此限制是各种限制(如上面列出的软件限制)的最小值。仅在支持功耗管理时可用。需要 Kepler 设备。请注意,对于没有 INA 传感器的板卡,正在操纵的是 GPU 功耗。
默认功耗管理算法的功耗上限,单位为瓦特。驱动程序卸载后,功耗限制将设置回默认功耗限制。仅在 Kepler 系列的受支持设备上可用。
可以将功耗限制设置为的最小值,单位为瓦特。仅在 Kepler 系列的受支持设备上可用。
可以将功耗限制设置为的最大值,单位为瓦特。仅在 Kepler 系列的受支持设备上可用。
与功耗平滑相关的定义和当前设置的值。此功能允许用户调整功耗参数,以最大限度地减少大型数据中心环境中的功耗波动。
如果该功能已启用,则值为“是”,如果该功能未启用,则值为“否”。
用户的当前权限。值为 0、1 或 2。请注意,权限级别越高,用户可以访问的信息就越多。
值为“已启用”或“已禁用”。指示斜坡下降迟滞值将被遵守(启用时)还是被忽略(禁用时)。
上次读取的总模块功耗值,单位为瓦特。
上次读取的总模块功耗下限值,单位为瓦特。此值通过执行 TMP 上限 * (% TMP 下限值) 计算得出
可以设置百分比 TMP 下限的最高百分比值。
可以设置百分比 TMP 下限的最低百分比值。
随着此功能的使用,驱动该功能的电路会磨损。此值给出了此硬件剩余寿命的百分比。
此值是支持的预设配置文件总数。
当前活动功耗平滑预设配置文件的值。
TMP 上限的百分比,用于设置当前活动预设配置文件的 TMP 下限。例如,如果最大 TMP 为 1000 瓦,并且 % TMP 下限为 50%,则最小 TMP 值将为 500 瓦。此值在 [最小 % TMP 下限,最大 % TMP 下限] 范围内。
当前活动预设配置文件的斜坡上升速率,以 mW/s 为单位。
当前活动预设配置文件的斜坡下降速率,以 mW/s 为单位。
当前活动预设配置文件的斜坡下降迟滞值,以毫秒为单位。
活动预设配置文件的编号。
管理员覆盖允许具有足够权限的用户抢占当前活动预设配置文件的值。如果为一个字段设置了管理员覆盖,则将使用此值,而不是任何其他配置的值。
% TMP 下限的管理员覆盖值。此值在 [最小 % TMP 下限,最大 % TMP 下限] 范围内。
斜坡上升速率的管理员覆盖值,以 mW/s 为单位。
斜坡下降速率的管理员覆盖值,以 mW/s 为单位。
斜坡下降迟滞值的管理员覆盖值,以毫秒为单位。
预调优的 GPU 配置文件有助于为数据中心用例提供即时、优化的配置。此部分包括有关当前请求和强制执行的功耗配置文件的信息。
用户请求的配置文件列表。
由于许多配置文件具有冲突的目标,因此请求配置文件的某些配置是不兼容的。这是当前强制执行的请求配置文件列表。
GPU 部件当前运行的频率。所有读数均以 MHz 为单位。
图形(着色器)时钟的当前频率。
SM(流式多处理器)时钟的当前频率。
内存时钟的当前频率。
视频(编码器 + 解码器)时钟的当前频率。
用户指定的应用程序将以其运行的频率。可以使用 [-ac | --applications-clocks] 开关更改。
用户指定的图形(着色器)时钟频率。
用户指定的内存时钟频率。
应用程序将以其运行的默认频率。可以使用 [-ac | --applications-clocks] 开关更改应用程序时钟。可以使用 [-rac | --reset-applications-clocks] 开关将应用程序时钟设置为默认值。
默认应用程序图形(着色器)时钟频率。
默认应用程序内存时钟频率。
GPU 部件设计运行的最大频率。所有读数均以 MHz 为单位。
在 Fermi 系列 GPU 上,当前 P0 时钟频率(在时钟频率部分报告)可能与最大时钟频率相差几个 MHz。
最大图形(着色器)时钟频率。
最大 SM(流式多处理器)时钟频率。
最大内存时钟频率。
最大视频(编码器 + 解码器)时钟频率。
用户指定的自动时钟更改设置,例如自动加速。
指示此 GPU 当前是否启用了自动加速模式(开启)或禁用(关闭)。如果不支持加速,则显示 (N/A)。自动加速允许基于功耗、散热和利用率的动态 GPU 时钟频率调整。当禁用自动加速时,GPU 将尝试将时钟频率精确地保持在当前应用程序时钟设置(只要 CUDA 上下文处于活动状态)。启用自动加速后,GPU 仍会尝试保持此下限,但在功耗、散热和利用率余量允许时,会机会性地加速到更高的时钟频率。此设置在为其请求的 CUDA 上下文的生命周期内持续存在。应用程序可以通过 NVML 调用(请参阅 NVML SDK)或通过设置 CUDA 环境变量 CUDA_AUTO_BOOST 来请求特定模式。
指示自动加速模式的默认设置,启用(开启)或禁用(关闭)。如果不支持加速,则显示 (N/A)。如果应用程序未明确请求特定模式,则它们将在默认模式下运行。注意:只有在启用“持久模式”时才能修改自动加速设置,默认情况下“持久模式”未启用。
GPU 可以运行的可能的内存和图形时钟频率组合列表(不考虑硬件制动降低的时钟频率)。这些是可以传递给 --applications-clocks 标志的唯一时钟频率组合。仅当提供 -q -d SUPPORTED_CLOCKS 开关或在 XML 格式中时,才会列出支持的时钟频率。
GPU 报告的当前电压。所有单位均为 mV。
图形单元的当前电压。此字段已弃用,始终显示“N/A”。电压将在以后的版本中移除。
GPU Fabric 信息
状态
指示 GPU 与 nvidia-fabricmanager(又名 GPU fabric 探针)的握手状态
可能的值:已完成、进行中、未启动、不支持
状态
来自 nvidia-fabricmanager 的 GPU fabric 探针响应状态。
可能的值:NVML_SUCCESS 或其中一个故障代码。
Clique ID
Clique 是一组可以通过 NVLink 相互通信的 GPU。
属于同一 Clique 的 GPU 共享相同的 Clique ID。
Clique ID 仅对 NVLink 多节点系统有效。
Cluster UUID
此 GPU 所属的 NVLink 多节点集群的 UUID。
Cluster UUID 对于 NVLink 单节点系统为零。
健康状况
带宽 - GPU NVLink 带宽是否降低 <True/False>
路由恢复进行中 - NVLink 路由恢复是否正在进行中 <True/False>
路由不健康 - NVLink 路由恢复是否失败或中止 <True/False>
访问超时恢复 - NVLink 访问超时恢复是否正在进行中 <True/False>
在设备上具有计算或图形上下文的进程列表。在所有完全支持的产品上报告计算进程。图形进程的报告仅限于从 Kepler 架构开始的受支持产品。
表示设备的 NVML 索引。
表示 MIG 设备的 GPU 实例索引(如果已启用)。
表示 MIG 设备的计算实例索引(如果已启用)。
表示与活动计算或图形上下文对应的进程 ID。
对于计算进程显示为“C”,对于图形进程显示为“G”,对于 MPS(“多进程服务”)计算进程显示为“M”,对于同时具有计算和图形上下文或 MPS 计算和计算上下文的进程显示为“C+G”或“M+C”。
表示计算或图形进程的进程名称。
上下文在设备上使用的内存量。在 WDDM 模式下运行时,在 Windows 上不可用,因为 Windows KMD 管理所有内存,而不是 NVIDIA 驱动程序。
“nvidia-smi dmon”命令行用于监控插入系统的一个或多个 GPU(最多 16 个设备)。此工具允许用户在每个监控周期看到一行监控数据。输出格式简洁,在交互模式下易于解释。每行输出数据受终端大小限制。在 Kepler 或更新版本的 GPU 下的裸机 64 位 Linux 上的 Tesla、GRID、Quadro 和有限的 GeForce 产品上受支持。默认情况下,监控数据包括功耗、温度、SM 时钟频率、内存时钟频率以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。它还可以配置为报告其他指标,例如帧缓冲区内存使用率、bar1 内存使用率、功耗/热量违规以及聚合的单位/双位 ecc 错误。如果设备不支持任何指标,或者在获取指标时报告任何其他错误,则在输出数据中将其报告为“-”。用户还可以配置监控频率和每次运行的监控迭代次数。还有一个选项可以在每行中包含日期和时间。所有支持的选项都是互斥的,可以以任何顺序一起使用。注意:在启用 MIG 的 GPU 上,当前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。
用法
“nvidia-smi daemon” 启动一个后台进程来监控一个或多个插入到系统中的 GPU。它按照监控周期监控请求的 GPU,并将文件以压缩格式记录到用户提供的路径或默认位置 /var/log/nvstats/。日志文件以系统日期附加到文件名后创建,格式为 nvstats-YYYYMMDD。每隔一个监控周期执行一次刷新操作到日志文件。守护进程还会将其自身的 PID 记录到 /var/run/nvsmi.pid。默认情况下,要持久保存的监控数据包括功耗、温度、SM 时钟、内存时钟以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。守护进程工具也可以配置为记录其他指标,例如帧缓冲区内存使用量、bar1 内存使用量、功耗/散热违规以及聚合的单/双比特 ECC 错误。默认监控周期设置为 10 秒,可以通过命令行配置。它在裸机 64 位 Linux 下的 Tesla、GRID、Quadro 和 GeForce 产品(适用于 Kepler 或更新的 GPU)上受支持。守护进程需要 root 权限才能运行,并且仅支持在系统上运行单个实例。所有支持的选项都是互斥的,可以以任何顺序一起使用。注意:在启用 MIG 的 GPU 上,目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。用法:
“nvidia-smi replay” 命令行用于提取/重放守护进程生成的日志文件的全部或部分内容。默认情况下,该工具尝试拉取指标,例如功耗、温度、SM 时钟、内存时钟以及 SM、内存、编码器、解码器、JPEG 和 OFA 的利用率值。重放工具还可以获取其他指标,例如帧缓冲区内存使用量、bar1 内存使用量、功耗/散热违规以及聚合的单/双比特 ECC 错误。可以选择一组要重放的指标,如果请求的任何指标未维护或记录为不支持,则在输出中显示为“-”。此模式生成的数据格式使用户可以交互式地运行设备监控实用程序。命令行需要强制选项 “-f” 来指定日志文件的完整路径,所有其他支持的选项都是互斥的,可以以任何顺序一起使用。注意:在启用 MIG 的 GPU 上,目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。用法:
“nvidia-smi pmon” 命令行用于监控在一个或多个插入到系统中的 GPU(最多 16 个设备)上运行的计算和图形进程。此工具允许用户在每个监控周期查看每个设备上所有正在运行的进程的统计信息。输出格式简洁,易于在交互模式下解释。每行输出数据受终端大小限制。它在裸机 64 位 Linux 下的 Tesla、GRID、Quadro 和有限的 GeForce 产品(适用于 Kepler 或更新的 GPU)上受支持。默认情况下,每个进程的监控数据包括 pid、命令名称以及自上次监控周期以来的 SM、内存、编码器和解码器的平均利用率值。它也可以配置为报告每个进程的帧缓冲区内存使用量。如果设备没有正在运行的进程,则该设备的所有指标都报告为“-”。如果设备不支持任何指标,或者在获取指标时出现任何其他错误,也会在输出数据中报告为“-”。用户还可以配置监控频率和每次运行的监控迭代次数。还可以选择在每行中包含日期和时间。所有支持的选项都是互斥的,可以以任何顺序一起使用。注意:在启用 MIG 的 GPU 上,目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。
用法
列出有关系统 GPU 的拓扑信息、它们如何相互连接、它们的 CPU 和内存亲和性以及符合 RDMA 条件的 NIC。
图例
X = 自身 SYS = 遍历 PCIe 以及 NUMA 节点之间 SMP 互连的连接(例如,QPI/UPI) NODE = 遍历 PCIe 以及 NUMA 节点内 PCIe 主桥之间互连的连接 PHB = 遍历 PCIe 以及 PCIe 主桥(通常是 CPU)的连接 PXB = 遍历多个 PCIe 交换机(不遍历 PCIe 主桥)的连接 PIX = 遍历单个 PCIe 交换机的连接 NV# = 遍历 # 个 NVLink 绑定集的连接
0 = 双 GPU 板上的单个 PCIe 交换机 1 = 单个 PCIe 交换机 2 = 多个 PCIe 交换机 3 = PCIe 主桥 4 = PCIe 主桥之间的片上 CPU 互连链路 5 = NUMA 节点之间的 SMP 互连链路
r - p2p 读取功能 w - p2p 写入功能 n - p2p nvlink 功能 a - p2p 原子功能 p - p2p pcie 功能
图例
X = 自身 SYS = 遍历 PCIe 以及 NUMA 节点之间 SMP 互连的连接(例如,QPI/UPI) NODE = 遍历 PCIe 以及 NUMA 节点内 PCIe 主桥之间互连的连接 PHB = 遍历 PCIe 以及 PCIe 主桥(通常是 CPU)的连接 PXB = 遍历多个 PCIe 桥接器(不遍历 PCIe 主桥)的连接 PIX = 最多遍历单个 PCIe 桥接器的连接
“nvidia-smi nvlink” 命令行用于管理 GPU 的 Nvlink。它提供用于设置和查询 Nvlink 信息的选项。
用法
14) 重置 Nvlink 错误计数器
“nvidia-smi c2c” 命令行用于管理 GPU 的 C2C 链路。它提供用于查询 C2C 链路信息的选项。
用法
“nvidia-smi vgpu” 命令报告在受支持的 GPU 和虚拟机监控程序上执行的 GRID vGPU(有关受支持平台,请参阅驱动程序发行说明)。摘要报告提供有关当前在系统上执行的 vGPU 的基本信息。其他选项提供 vGPU 属性的详细报告、每个 vGPU 的 SM、内存、编码器、解码器、Jpeg 和 OFA 利用率报告,以及每个 GPU 的受支持和可创建 vGPU 报告。可以通过为任何命令指定可配置的循环频率来自动生成定期报告。注意:在启用 MIG 的 GPU 上,目前不支持查询编码器、解码器、jpeg、ofa、gpu 和内存的利用率。
用法
特权 “nvidia-smi mig” 命令行用于管理启用 MIG 的 GPU。它提供用于创建、列出和销毁 GPU 实例和计算实例的选项。
用法
特权 “nvidia-smi boost-slider” 命令行用于管理 GPU 上的 boost slider。它提供用于列出和控制 boost slider 的选项。
用法
特权 “nvidia-smi power-hint” 命令行用于查询 GPU 上的 power hint。
用法
“nvidia-smi conf-compute” 命令行用于管理保密计算。它提供用于设置和查询保密计算的选项。
用法
"nvidia-smi gpm" 命令行用于管理 GPU 性能监控单元。它提供查询和设置流状态的选项。
用法
"nvidia-smi pci" 命令行用于管理 GPU PCI 计数器。它提供查询和清除 PCI 计数器的选项。
用法
"nvidia-smi power-smoothing" 命令行用于管理 GPU 上的电源平滑相关数据。它提供设置电源平滑相关数据和查询预设配置文件定义的选项。
用法
"nvidia-smi power-profiles" 命令行用于管理 GPU 上的工作负载电源配置文件相关数据。它提供更新电源配置文件数据和查询支持的电源配置文件的选项。
用法
以下列表描述了 -q -u 单元查询选项返回的所有可能数据。除非另有说明,所有数值结果均为十进制且无单位。
调用 nvidia-smi 时的当前系统时间戳。格式为“星期几 月 日 HH:MM:SS 年”。
已安装 NVIDIA 显示驱动程序的版本。格式为“主版本号.次版本号”。
有关系统中安装的任何主机接口卡 (HIC) 的信息。
HIC 上运行的固件版本。
系统中连接的单元数量。
单元的官方产品名称。这是一个字母数字值。适用于所有 S 级产品。
单元的产品标识符。这是一个“part1-part2-part3”形式的字母数字值。适用于所有 S 级产品。
单元不可变的全局唯一标识符。这是一个字母数字值。适用于所有 S 级产品。
单元上运行的固件版本。格式为“主版本号.次版本号”。适用于所有 S 级产品。
LED 指示灯用于标记具有潜在问题的系统。琥珀色 LED 指示存在问题。适用于所有 S 级产品。
LED 指示灯的颜色。可以是“绿色”或“琥珀色”。
当前 LED 颜色的原因。原因可能列为“未知”、“主机系统设置为琥珀色”、“热传感器故障”、“风扇故障”和“温度超过临界限制”的任意组合。
单元重要组件的温度读数。所有读数均以摄氏度为单位。并非所有读数都可能可用。适用于所有 S 级产品。
单元进气口的空气温度。
单元排气点的空气温度。
单元板载的空气温度。
单元电源的读数。适用于所有 S 级产品。
PSU 的运行状态。电源状态可以是以下任何一种:“正常”、“异常”、“高压”、“风扇故障”、“散热器温度”、“电流限制”、“电压低于 UV 报警阈值”、“低压”、“I2C 远程关闭命令”、“MOD_DISABLE 输入”或“短路引脚转换”。
PSU 电压设置,单位为伏特。
PSU 电流消耗,单位为安培。
单元的风扇读数。为每个风扇提供一个读数,其中可能有很多个。适用于所有 S 级产品。
风扇的状态,可以是“正常”或“故障”。
对于健康的风扇,风扇的转速,单位为 RPM。
对应于连接到单元的每个 GPU 的 PCI 总线 ID 列表。总线 ID 的格式为“域:总线:设备.功能”,以十六进制表示。适用于所有 S 级产品。
在 Linux 上,如果以 root 身份运行 nvidia-smi,则可以修改 NVIDIA 设备文件。请参阅驱动程序 README 文件的相关部分。
-a 和 -g 参数现在已被弃用,推荐使用 -q 和 -i。但是,旧参数在此版本中仍然有效。
一次查询所有 GPU 的属性,并以纯文本格式显示到 stdout。
查询系统中所有 GPU 的 UUID 和持久模式。
以 10 秒的频率无限期地查询 GPU 0 的 ECC 错误和功耗,并记录到文件 out.log。
将 UUID 为 "GPU-b2f5f1b745e3d23d-65a3a26d-097db358-7303e0b6-149642ff3d219f8587cde3a8" 的 GPU 的计算模式设置为“PROHIBITED”。
一次查询所有单元的属性,并以嵌入 DTD 的 XML 格式显示到 stdout。
将单元 DTD 写入 nvsmi_unit.dtd。
显示所有 GPU 支持的时钟频率。
将应用程序时钟频率设置为 2500 MHz 内存和 745 MHz 图形。
在配置文件 ID 19 上创建 MIG GPU 实例。
在配置文件 ID 19 上创建 MIG GPU 实例,放置起始索引为 2。
列出所有 GPU 的所有 boost 滑块。
将所有 GPU 的 vboost 值设置为 1。
列出功率提示的时钟范围、温度范围和支持的配置文件。
查询图形时钟频率为 1350MHz、温度为 60C、配置文件 ID 为 0 的功率提示。
查询图形时钟频率为 1350MHz、内存时钟频率为 1215MHz、温度为 -5C、配置文件 ID 为 1 的功率提示。
=== 已知问题 ===
* 在 GPU 为 NUMA 节点的系统上,nvidia-smi 提供的 FB 内存利用率的准确性取决于操作系统的内存记账。
这是因为 FB 内存由操作系统而不是 NVIDIA GPU 驱动程序管理。
通常,即使进程终止,从 FB 内存分配的页面也不会被释放,以提高性能。在以下情况下
操作系统处于内存压力之下,它可能会求助于使用 FB 内存。此类操作可能会导致内存报告的准确性出现差异。
* 在 Linux 上,当存在待处理的 GOM 更改时,无法触发 GPU 重置。
* 在 Linux 上,GPU 重置可能无法成功更改待处理的 ECC 模式。可能需要完全重启才能启用模式更改。
* 在将 NVIDIA GPU 配置为 NUMA 节点的 Linux 平台上,如果 nvidia-persistenced 未运行,或者 nvidia-persistenced 无法访问 NVIDIA 驱动程序的 procfs 目录中的设备文件 (/proc/driver/nvidia/gpus/<PCI 配置地址>/),则启用持久模式或重置 GPU 可能会打印“Warning: persistence mode is disabled on device”。在 GPU 重置和驱动程序重新加载期间,此目录将被删除并重新创建,并且对已删除目录的未完成引用(例如挂载或 shell)可能会阻止进程访问新目录中的文件。
* === nvidia-smi v570 更新版本和 v565 版本之间的更改 ===
* 为 "nvidia-smi nvlink" 添加了新的命令行选项 "-LWidth" 和 "-Width"
* 为 "nvidia-smi nvlink - for Blackwell and onward generations" 添加了显示 Nvlink 休眠状态的新功能
* 为平均/瞬时模块功耗添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.draw.{average,instant}"
* 为默认/最大/最小模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.{default_limit,max_limit,min_limit}"
* 为模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.power.limit"
* 为强制执行的模块功率限制添加了新的查询 GPU 选项: "nvidia-smi --query-gpu=module.enforced.power.limit"
* 为 GPU 功率选项添加了新的查询 GPU 别名
* 添加了一个新命令来获取保密计算信息: "nvidia-smi conf-compute -q"
* 在 nvidia-smi -q 中添加了新的电源配置文件部分以及相应的 -d 显示标志 POWER_PROFILES
* 添加了新的电源配置文件选项 "nvidia-smi power-profiles" 以获取/设置电源配置文件相关信息。
* 将平台信息查询添加到 "nvidia-smi -q"
* 将平台信息查询添加到 "nvidia-smi --query-gpu platform"
* 添加了新的电源平滑选项 "nvidia-smi power-smoothing" 以设置电源平滑相关值。
* 在 nvidia-smi -q 中添加了新的电源平滑部分以及相应的 -d 显示标志 POWER_SMOOTHING
* 弃用了 nvidia-smi -q 电压部分中的图形电压值。电压现在始终显示为 "N/A",并将在未来版本中删除。
* 添加了新的拓扑选项 nvidia-smi topo -nvme 以显示 GPU 与 NVMe 的连接路径。
* 将命令 "nvidia-smi topo -p2p -p" 的帮助字符串从 "prop" 更改为 "pcie",以更好地描述 p2p 功能。
* 添加了新命令 "nvidia-smi pci -gCnt" 以查询 PCIe RX/TX 字节。
* 在 nvidia-smi -q 命令的新功能部分下添加了 EGM 功能显示。
* 通过 "nvidia-smi conf-compute --get-multigpu-mode" 或 "nvidia-smi conf-compute -mgm" 添加了通过 nvidia-smi 进行 multiGpuMode 显示
* nvidia-smi -q 中的 GPU 重置状态已被弃用。GPU 恢复操作提供了所有必要的操作
* nvidia-smi -q 现在将显示 Dram 加密状态
* nvidia-smi -den/--dram-encryption 0/1 用于禁用/启用 dram 加密
* 为 nvidia fabric health 添加了新状态。nvidia-smi -q 将在 Fabric Health 中显示 3 个新字段 - 路由恢复中、路由不健康和访问超时恢复
* 在 nvidia-smi -q 平台信息中 - RACK GUID 已更改为平台信息 - RACK 序列号
* 在 nvidia-smi --query-gpu 中,添加了 gpu_recovery_action 的新选项
* - 在 nvidia-smi nvlink -e 中为 Nvlink5 添加了新计数器
* - 有效错误以获取每个 Nvlink 数据包中错误数量的总和
* - 有效 BER 以获取有效错误的有效 BER
* - FEC 错误 - 0 到 15 以获取已纠正的符号错误计数
* === nvidia-smi v565 更新版本和 v560 版本之间的更改 ===
* 将 vGPU 同构模式的报告添加到 "nvidia-smi -q"。
* 将同构 vGPU 放置的报告添加到 "nvidia-smi vgpu -s -v",补充了现有的异构 vGPU 放置报告。
* === nvidia-smi v560 更新版本和 v555 版本之间的更改 ===
* 在 "nvidia-smi -q" 的 PCI 部分中添加了 "Atomic Caps Inbound"。
* 更新了选项 "--query-gpu" 和 "--query-remapped-rows" 的 ECC 和行重映射器输出。
* 添加了对事件的支持,包括 ECC 单位错误风暴、DRAM 退休、DRAM 退休失败、包含/非致命毒害和未包含/致命毒害。
* 在 "nvidia-smi nvlink -e" 中添加了支持,以显示 NVLink5 错误计数器
* === nvidia-smi v550 更新版本和 v545 版本之间的更改 ===
* 添加了一个新的命令行选项来打印版本信息: --version
* 添加了仅使用 "nvidia-smi -q -d" 打印 GSP 固件版本的功能。示例命令行: nvidia-smi -q -d GSP_FIRMWARE_VERSION
* 添加了支持以查询 pci.baseClass 和 pci.subClass。有关详细信息,请参阅 nvidia-smi --help-query-gpu。
* 将 PCI 基类代码和子类代码添加到 "nvidia-smi -q" 输出。
* 为 "nvidia-smi dmon" 添加了新的命令行选项 "--format",以支持 "csv"、"nounit" 和 "noheader" 格式说明符
* 为 "nvidia-smi dmon" 添加了一个新的命令行选项 "--gpm-options",以支持 MIG 模式下的 GPM 指标报告
* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi pmon"
* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi -q -d utilization"
* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -q",以报告活动 vgpu 上的 NVJPG/NVOFA 利用率
* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -u",以定期报告活动 vgpu 上的 NVJPG/NVOFA 利用率
* 将 NVJPG 和 NVOFA 利用率报告添加到 "nvidia-smi vgpu -p",以定期报告活动 vgpu 的运行进程的 NVJPG/NVOFA 利用率
* 为 "nvidia-smi vgpu" 添加了一个新的命令行选项 "-shm",以设置 vGPU 异构模式
* 将 vGPU 异构模式的报告添加到 "nvidia-smi -q"
* 添加了无需启用 MIG 即可调用 "nvidia-smi mig -lgip" 和 "nvidia-smi mig -lgipp" 的功能
* 添加了支持以查询保密计算密钥轮换阈值信息。
* 添加了支持以设置保密计算密钥轮换最大攻击者优势。
* 为 "nvidia-smi clocks" 添加了一个新的命令行选项 "--sparse-operation-mode",以设置稀疏操作模式
* 将稀疏操作模式的报告添加到 "nvidia-smi -q -d PERFORMANCE"
* === nvidia-smi v535 更新版本和 v545 版本之间的更改 ===
* 添加了支持以查询 BBX 对象最新刷新到 inforom 存储的时间戳和持续时间。
* 添加了报告 GPU 内存功耗的支持。
* === nvidia-smi v535 更新版本和 v530 版本之间的更改 ===
* 更新了 ECC 查询 "nvidia-smi -q -d ECC" 中报告的 SRAM 错误状态
* 添加了支持以查询和报告 GPU JPEG 和 OFA (光流加速器) 利用率。
* 删除了已弃用的 "stats" 命令。
* 添加了支持以设置 vGPU 软件调度器状态。
* 将计数器收集单元重命名为 GPU 性能监控。
* 为设备查询添加了新的 C2C 模式报告。
* 将 clock_throttle_reasons 添加回 --query-gpu,以不破坏向后兼容性
* 添加了支持以获取保密计算 CPU 功能和 GPU 功能。
* 添加了支持以设置保密计算非保护内存和 GPU 就绪状态。
* 添加了支持以获取保密计算内存信息和 GPU 就绪状态。
* 添加了支持以显示保密计算开发工具模式、环境和功能状态。
* === nvidia-smi v525 更新版本和 v530 版本之间的更改 ===
* 添加了支持以查询 power.draw.average 和 power.draw.instant。有关详细信息,请参阅 nvidia-smi --help-query-gpu。
* 添加了支持以获取 vGPU 软件调度器状态。
* 添加了支持以获取 vGPU 软件调度器日志。
* 添加了支持以获取 vGPU 软件调度器功能。
* 将时钟频率限制原因重命名为时钟事件原因。
* === nvidia-smi v520 更新版本和 v525 版本之间的更改 ===
* 添加了支持以查询和设置计数器收集单元流状态。
* === nvidia-smi v470 更新版本和 v510 版本之间的更改 ===
* 向 FB 内存输出添加了新的 "Reserved" 内存报告
* === nvidia-smi v465 更新版本和 v470 版本之间的更改 ===
* 添加了支持以查询功率提示
* === nvidia-smi v460 更新版本和 v465 版本之间的更改 ===
* 删除了对 -acp,--application-clock-permissions 选项的支持
* === nvidia-smi v450 更新版本和 v460 版本之间的更改 ===
* 添加了在创建 MIG GPU 实例时指定放置的功能。
* 添加了支持以查询和控制 boost 滑块
* === nvidia-smi v445 更新版本和 v450 版本之间的更改 ===
* 添加了 --lock-memory-clock 和 --reset-memory-clock 命令,以锁定到提供的最接近的最小/最大内存时钟频率,并能够重置内存时钟频率
* 允许报告大于 100% 的风扇速度
* 添加了拓扑支持,以显示 GPU 设备的 NUMA 节点关联性
* 添加了支持,以使用配置文件名称创建 MIG 实例
* 添加了支持,以在创建 GPU 实例时创建默认计算实例
* 添加了支持,以在 Windows 上查询和禁用 MIG 模式
* 删除了在启用 MIG 的 vGPU 客户机上对 GPU 重置 (-r) 命令的支持
* === nvidia-smi v418 更新版本和 v445 版本之间的更改 ===
* 添加了对多实例 GPU (MIG) 的支持
* 添加了支持,以基于 NVIDIA Ampere 架构单独重置支持 NVLink 的 GPU
* === nvidia-smi v361 更新版本和 v418 版本之间的更改 ===
* 支持 Volta 和 Turing 架构、错误修复、性能改进和新功能
* === nvidia-smi v352 更新版本和 v361 版本之间的更改 ===
* 添加了 nvlink 支持,以公开可用的 NVLINK NVML API
* 添加了具有同步 boost 支持的时钟子命令
* 更新了 nvidia-smi stats,以报告 GPU 温度指标
* 更新了 nvidia-smi dmon,以支持 PCIe 吞吐量
* 更新了 nvidia-smi daemon/replay,以支持 PCIe 吞吐量
* 更新了 nvidia-smi dmon、daemon 和 replay,以支持 PCIe 重放错误
* 在 nvidia-smi -q 中添加了 GPU 部件号
* 删除了对独占线程计算模式的支持
* 将视频 (编码器/解码器) 时钟添加到 nvidia-smi -q 的时钟和最大时钟显示中
* 将内存温度输出添加到 nvidia-smi dmon
* 添加了 --lock-gpu-clock 和 --reset-gpu-clock 命令,以锁定到提供的最接近的最小/最大 GPU 时钟频率,并重置时钟频率
* 添加了 --cuda-clocks 以覆盖或恢复默认 CUDA 时钟频率
* === nvidia-smi v346 更新版本和 v352 版本之间的更改 ===
* 添加了拓扑支持,以显示每个 GPU 的关联性
* 添加了拓扑支持,以显示给定级别的相邻 GPU
* 添加了拓扑支持,以显示两个给定 GPU 之间的路径
* 添加了 "nvidia-smi pmon" 命令行,用于滚动格式的进程监控
* 添加了 "--debug" 选项,以生成加密的调试日志,用于向 NVIDIA 提交错误
* 修复了 Windows WDDM 模式下已用/可用内存的报告
* 会计统计信息已更新,以包括正在运行和已终止的进程。正在运行的进程的执行时间报告为 0,并在进程终止时更新为实际值。
* === nvidia-smi v340 更新版本和 v346 版本之间的更改 ===
* 添加了 PCIe 重放计数器的报告
* 添加了通过 nvidia-smi 报告图形进程的支持
* 添加了 PCIe 利用率的报告
* 添加了 dmon 命令行,用于滚动格式的设备监控
* 添加了 daemon 命令行,以在后台运行并作为守护程序进程监控设备。在 /var/log/nvstats/ 生成带日期戳的日志文件
* 添加了 replay 命令行,以重放/提取守护程序工具生成的统计信息文件
* === nvidia-smi v331 更新版本和 v340 版本之间的更改 ===
* 添加了温度阈值信息的报告。
* 添加了品牌信息 (例如 Tesla、Quadro 等) 的报告
* 添加了对 K40d 和 K80 的支持。
* 添加了对样本 (功耗、利用率、时钟频率更改) 的最大值、最小值和平均值的报告。示例命令行: nvidia-smi -q -d power,utilization, clock
* 添加了 nvidia-smi stats 接口,用于收集统计信息,例如功耗、利用率、时钟频率更改、xid 事件和 perf capping 计数器,每个样本都附加了时间概念。示例命令行: nvidia-smi stats
* 添加了支持,以集体报告多个 GPU 的指标。与逗号分隔的 "-i" 选项一起使用。示例: nvidia-smi -i 0,1,2
* 添加了支持,以显示 GPU 编码器和解码器利用率
* 添加了 nvidia-smi topo 接口,以显示 GPUDirect 通信矩阵 (实验性)
* 添加了支持,以显示 GPU 板 ID 以及它是否是多 GPU 板
* 从 XML 输出中删除了用户定义的限制原因
* === nvidia-smi v5.319 更新版本和 v331 版本之间的更改 ===
* 添加了次要版本号的报告。
* 添加了 BAR1 内存大小的报告。
* 添加了桥接芯片固件的报告。
* === nvidia-smi v4.319 Production 版本和 v4.319 Update 版本之间的更改 ===
* 添加了新的 --applications-clocks-permission 开关,以更改设置和重置应用程序时钟频率的权限要求。
* === nvidia-smi v4.304 版本和 v4.319 Production 版本之间的更改 ===
* 添加了显示活动状态的报告,并更新了文档以阐明它与显示模式和显示活动状态的区别
* 为了在多 GPU 板上保持一致性,nvidia-smi -L 始终显示 UUID 而不是序列号
* 添加了机器可读的选择性报告。请参阅 nvidia-smi -h 的选择性查询选项部分
* 添加了页面退休信息的查询。请参阅 --help-query-retired-pages 和 -d PAGE_RETIREMENT
* 将时钟频率限制原因用户定义的时钟频率重命名为应用程序时钟频率设置
* 发生错误时,返回代码对于每个错误类别都有不同的非零值。请参阅返回值部分
* nvidia-smi -i 现在可以在系统中的其他 GPU 出现问题时查询健康 GPU 的信息
* 指向 GPU 问题的消息都打印故障 GPU 的 pci 总线 ID
* 用于以高于每秒一次的速率查询信息的新标志 --loop-ms (可能对系统性能产生负面影响)
* 添加了会计处理进程的查询。请参阅 --help-query-accounted-apps 和 -d ACCOUNTING
* 将强制执行的功率限制添加到查询输出中
* === nvidia-smi v4.304 RC 版本和 v4.304 Production 版本之间的更改 ===
* 添加了 GPU 操作模式 (GOM) 的报告
* 添加了新的 --gom 开关以设置 GPU 操作模式
* === nvidia-smi v3.295 版本和 v4.304 RC 版本之间的更改 ===
* 由于用户反馈,重新格式化了非详细输出。从表中删除了待处理信息。
* 如果由于内核模块未接收到中断而导致初始化失败,则打印有用的消息
* 当系统中不存在 NVML 共享库时,更好的错误处理
* 添加了新的 --applications-clocks 开关
* 为 --display 开关添加了新过滤器。使用 -d SUPPORTED_CLOCKS 运行以列出 GPU 上可能的时钟频率
* 在报告可用内存时,从四舍五入的总内存和已用内存中计算得出,以便值加起来
* 添加了功率管理限制约束和默认限制的报告
* 添加了新的 --power-limit 开关
* 添加了纹理内存 ECC 错误的报告
* 添加了时钟频率限制原因的报告
* === nvidia-smi v2.285 版本和 v3.295 版本之间的更改 ===
* 更清晰的运行命令 (如更改计算模式) 的错误报告
* 一次在多个 GPU 上运行命令时,N/A 错误被视为警告。
* nvidia-smi -i 现在也支持 UUID
* UUID 格式已更改为与 UUID 标准匹配,并将报告不同的值。
=== nvidia-smi v2.0 和 v2.285 之间的更改 ===
* 报告 VBIOS 版本。
* 添加 -d/--display 标志以过滤部分数据
* 添加 PCI 子系统 ID 的报告
* 更新文档以表明我们支持 M2075 和 C2075
* 使用 -u 开关报告 HIC HWBC 固件版本
* 报告 max(P0) 时钟(在当前时钟旁边)
* 添加 --dtd 标志以打印设备或单元 DTD
* 添加 NVIDIA 驱动程序未运行时显示的消息
* 添加 PCIe 链接代数(最大和当前)以及链接宽度(最大和当前)的报告。
* 在非管理员身份下可以获取挂起的驱动程序模型
* 添加在 Windows 访客帐户上运行 nvidia-smi 的支持
* 在不使用 -q 命令的情况下运行 nvidia-smi 将输出 -q 的非详细版本而不是帮助
* 修复了 -l/--loop= 参数的解析(默认值 0,到大值)
* 更改了 pciBusId 的格式(更改为 XXXX:XX:XX.X - 此更改在 280 中可见)
* 对 -i 命令的 busId 解析限制较少。您可以传递 0:2:0.0 或 0000:02:00 以及其他变体
* 更改了版本控制方案以包含“驱动程序版本”
* XML 格式始终符合 DTD,即使发生错误情况也是如此
* 添加了对单比特和双比特 ECC 事件以及 XID 错误的支持(默认启用,-l 标志禁用,-x 标志启用)
* 添加了设备重置 -r --gpu-reset 标志
* 添加了计算运行进程的列表
* 将 power state 重命名为 performance state。仅在 XML 输出中存在已弃用的支持。
* 更新了 DTD 版本号至 2.0 以匹配更新后的 XML 输出
在 Linux 上,驱动程序 README 安装为 /usr/share/doc/NVIDIA_GLX-1.0/README.txt
NVIDIA 公司
版权所有 2011-2025 NVIDIA 公司。