NVIDIA RTX vWS:虚拟化工作负载的尺寸调整和 GPU 选择指南

工具

一些 NVIDIA 专用和第三方行业工具可以帮助验证您的概念验证 (POC),并优化用户密度和性能。本节介绍的工具包括

  • GPU 分析器

  • NVIDIA-SMI

  • esxtop

  • Aria Operations

这些工具使您能够分析所有物理和虚拟资源的利用率,优化配置以满足用户性能要求并实现最佳扩展。它们在您的 POC 期间尤其有用,以确保您的测试环境准确地代表实际生产环境。持续使用这些工具对于维护系统健康、稳定性和可扩展性至关重要,因为部署需求可能会随着时间的推移而演变。

GPU 分析器,可在 GitHub 上获得,是一种广泛使用的工具,用于快速捕获虚拟机上工作负载执行期间的资源利用率。它通常在 POC 期间使用,以帮助确定虚拟环境的大小并确保可接受的用户性能。GPU 分析器可以在具有各种 vGPU 配置文件的单个 VM 上运行。可以捕获以下指标

  • 帧缓冲区百分比

  • GPU 利用率

  • vCPU 百分比

  • RAM 百分比

  • 视频编码

  • 视频解码

vgpu-010.png

图 10 - GPU 分析器

有关更多详细信息和下载该工具,请访问 GitHub 上 GPUProfiler 的发布页面

nvidia-smi 实用程序内置于 NVIDIA vGPU 管理器中,提供广泛的监控功能,使 IT 人员能够更好地了解各种 NVIDIA vGPU 引擎的使用情况。您可以通过命令行界面工具 nvidia-smi 监控和记录计算引擎、帧缓冲区、编码器和解码器的利用率,该工具可在虚拟机管理程序或虚拟机内访问。

要识别 RTX vWS VM 的物理 GPU 瓶颈,请使用 SSH 在 Shell 会话中的虚拟机管理程序上执行以下 nvidia-smi 命令

  • 虚拟机帧缓冲区利用率:

复制
已复制!
            

nvidia-smi vgpu -q -l 5 | grep -e "VM ID" -e "VM Name" -e "Total" -e "Used" -e "Free"

  • 虚拟机 GPU、编码器和解码器利用率:

复制
已复制!
            

nvidia-smi vgpu -q -l 5 | grep -e "VM ID" -e "VM Name" -e "Utilization" -e "Gpu" -e "Encoder" -e "Decoder"

  • 物理 GPU、编码器和解码器利用率:

复制
已复制!
            

nvidia-smi -q -d UTILIZATION -l 5 | grep -v -e "Duration" -e "Number" -e "Max" -e "Min" -e "Avg" -e "Memory" -e "ENC" -e "DEC" -e "Samples"

有关 nvidia-smi 的更多信息,请参阅官方文档。请注意选项 -f FILE–filename=FILE,它可以将查询输出重定向到文件(例如,.csv)。

esxtop 是一个 VMware 工具,可实时捕获主机级性能指标,显示有关每个处理器、内存利用率、磁盘使用率和网络使用率的信息。它还捕获 VM 级指标。

为了在最大程度地减少磁盘空间使用量的情况下有效地捕获 esxtop 数据,您可以将输出直接管道传输到压缩文件中。以下是捕获一小时数据样本的示例命令

复制
已复制!
            

esxtop -b -a -d 15 -n 240 | gzip -9c > esxtopoutput.csv.gz

  • -b:以批处理模式运行 esxtop,适用于长期数据收集。

  • -a:捕获所有可用的性能指标。

  • -d 15:设置每次数据收集之间 15 秒的延迟。

  • -n 240:执行 240 次迭代,从而产生 3600 秒(一小时)的捕获窗口。

有关 VMWare esxtop 的更多信息,请参见此处

适用于 VMware Aria Operations 的 NVIDIA 虚拟 GPU 管理包支持对 VMware Aria Operations 集群中的 NVIDIA 物理 GPU 和虚拟 GPU 进行强大的监控。

VMware Aria Operations 功能

  • 集成管理:结合了 VMware vSphere、物理和混合云环境的性能、容量和配置管理。

  • 可自定义平台:支持第三方管理包以扩展功能。

有关更多信息,请参阅 VMware Aria Operations 文档

NVIDIA 虚拟 GPU 管理包功能

  • 全面监控:跟踪和分析来自 NVIDIA vGPU 软件的性能指标。

  • 无缝集成:将指标发送到 VMware Aria Operations 以进行实时分析和可视化。

  • 增强的可见性:在 VMware Aria Operations 内的自定义 NVIDIA 仪表板中显示指标。

有关适用于 VMWare Aria Operations 的 NVIDIA 虚拟 GPU 管理包的更多信息,请参见此处

上一篇 尺寸调整方法
下一篇 性能指标
© 版权所有 © 2013-2025, NVIDIA Corporation。 上次更新时间:2025 年 1 月 14 日。