工具
一些 NVIDIA 专用和第三方行业工具可以帮助验证您的概念验证 (POC),并优化用户密度和性能。本节介绍的工具包括
GPU 分析器
NVIDIA-SMI
esxtop
Aria Operations
这些工具使您能够分析所有物理和虚拟资源的利用率,优化配置以满足用户性能要求并实现最佳扩展。它们在您的 POC 期间尤其有用,以确保您的测试环境准确地代表实际生产环境。持续使用这些工具对于维护系统健康、稳定性和可扩展性至关重要,因为部署需求可能会随着时间的推移而演变。
GPU 分析器,可在 GitHub 上获得,是一种广泛使用的工具,用于快速捕获虚拟机上工作负载执行期间的资源利用率。它通常在 POC 期间使用,以帮助确定虚拟环境的大小并确保可接受的用户性能。GPU 分析器可以在具有各种 vGPU 配置文件的单个 VM 上运行。可以捕获以下指标
帧缓冲区百分比
GPU 利用率
vCPU 百分比
RAM 百分比
视频编码
视频解码

图 10 - GPU 分析器
有关更多详细信息和下载该工具,请访问 GitHub 上 GPUProfiler 的发布页面。
nvidia-smi 实用程序内置于 NVIDIA vGPU 管理器中,提供广泛的监控功能,使 IT 人员能够更好地了解各种 NVIDIA vGPU 引擎的使用情况。您可以通过命令行界面工具 nvidia-smi 监控和记录计算引擎、帧缓冲区、编码器和解码器的利用率,该工具可在虚拟机管理程序或虚拟机内访问。
要识别 RTX vWS VM 的物理 GPU 瓶颈,请使用 SSH 在 Shell 会话中的虚拟机管理程序上执行以下 nvidia-smi 命令
虚拟机帧缓冲区利用率:
nvidia-smi vgpu -q -l 5 | grep -e "VM ID" -e "VM Name" -e "Total" -e "Used" -e "Free"
虚拟机 GPU、编码器和解码器利用率:
nvidia-smi vgpu -q -l 5 | grep -e "VM ID" -e "VM Name" -e "Utilization" -e "Gpu" -e "Encoder" -e "Decoder"
物理 GPU、编码器和解码器利用率:
nvidia-smi -q -d UTILIZATION -l 5 | grep -v -e "Duration" -e "Number" -e "Max" -e "Min" -e "Avg" -e "Memory" -e "ENC" -e "DEC" -e "Samples"
有关 nvidia-smi 的更多信息,请参阅官方文档。请注意选项 -f FILE 或 –filename=FILE,它可以将查询输出重定向到文件(例如,.csv)。
esxtop 是一个 VMware 工具,可实时捕获主机级性能指标,显示有关每个处理器、内存利用率、磁盘使用率和网络使用率的信息。它还捕获 VM 级指标。
为了在最大程度地减少磁盘空间使用量的情况下有效地捕获 esxtop 数据,您可以将输出直接管道传输到压缩文件中。以下是捕获一小时数据样本的示例命令
esxtop -b -a -d 15 -n 240 | gzip -9c > esxtopoutput.csv.gz
-b:以批处理模式运行 esxtop,适用于长期数据收集。
-a:捕获所有可用的性能指标。
-d 15:设置每次数据收集之间 15 秒的延迟。
-n 240:执行 240 次迭代,从而产生 3600 秒(一小时)的捕获窗口。
有关 VMWare esxtop 的更多信息,请参见此处。
适用于 VMware Aria Operations 的 NVIDIA 虚拟 GPU 管理包支持对 VMware Aria Operations 集群中的 NVIDIA 物理 GPU 和虚拟 GPU 进行强大的监控。
VMware Aria Operations 功能
集成管理:结合了 VMware vSphere、物理和混合云环境的性能、容量和配置管理。
可自定义平台:支持第三方管理包以扩展功能。
有关更多信息,请参阅 VMware Aria Operations 文档。
NVIDIA 虚拟 GPU 管理包功能
全面监控:跟踪和分析来自 NVIDIA vGPU 软件的性能指标。
无缝集成:将指标发送到 VMware Aria Operations 以进行实时分析和可视化。
增强的可见性:在 VMware Aria Operations 内的自定义 NVIDIA 仪表板中显示指标。
有关适用于 VMWare Aria Operations 的 NVIDIA 虚拟 GPU 管理包的更多信息,请参见此处。