NVIDIA RTX vWS:虚拟化工作负载的尺寸调整和 GPU 选择指南

性能指标

上一章介绍了用于捕获关键性能指标的基本工具,这些指标将在后续章节中详细介绍。在概念验证 (POC) 期间以及在生产环境中定期收集这些指标以优化 VDI 交付至关重要。

在 VDI 环境中,性能指标分为两个层级:服务器级别和 VM 级别。每个层级都有不同的指标,必须对其进行验证以确保最佳性能和可扩展性。

如上一章所述,GPU Profiler 和 VMware Aria Operations 都是用于监控虚拟机内资源使用率指标的宝贵工具。即将到来的章节将详细介绍这些指标,这些指标对于进行 POC 或监控现有部署以有效识别和解决潜在的性能瓶颈至关重要。

帧缓冲区使用率

在虚拟化环境中,帧缓冲区表示虚拟机操作系统可用的 vGPU 内存量。一个好的经验法则是,虚拟机的帧缓冲区使用率不应频繁超过 90% 或平均超过 70%。如果注意到高利用率,则 vGPU 支持的虚拟机更容易出现次优用户体验,包括性能下降和潜在的崩溃。考虑到软件应用程序中用户交互和工作流程的多样性,建议使用您的特定工作负载进行 POC,以确定适合您环境的帧缓冲区阈值。

vCPU 使用率

在部署 NVIDIA RTX vWS 时,监控 vCPU 使用率与 vGPU 帧缓冲区利用率同等重要。由于所有工作负载都依赖于 CPU 资源,因此确保 vCPU 使用率不会成为瓶颈对于维持最佳性能至关重要。即使进程使用 vGPU 加速,vCPU 资源仍然是其运行不可或缺的一部分。因此,平衡和监控 vGPU 和 vCPU 资源是优化系统性能的关键。

视频编码/解码

NVIDIA GPU 具有基于硬件的编码器和解码器,具体来说

  • NVENC (NVIDIA 视频编码器):这种硬件加速编码器将计算密集型视频编码任务从 CPU 卸载到 GPU,从而显着提高性能和效率。

  • NVDEC (NVIDIA 视频解码器):这种硬件加速解码器为各种视频编解码器提供快速实时解码,通过减少 CPU 负载来增强视频播放性能。

当这些 NVIDIA 硬件组件被积极使用时,可以捕获编码器和解码器使用率的指标。视频编码器使用率指标专门衡量协议或应用程序对 GPU 编码器的使用强度,这对于监控虚拟化环境中的性能至关重要。

在上一章中,我们介绍了 NVIDIA 系统管理界面 (nvidia-smi) 和 VMware esxtop,作为监控物理主机上资源使用率指标的宝贵工具。即将到来的章节将深入探讨这些指标,这些指标对于进行 POC 或维护操作部署以有效识别和解决性能瓶颈至关重要。

CPU 核心利用率

VMware 的 esxtop 实用程序监控每个 CPU 处理器的基本物理主机状态信息。“% 总 CPU 核心利用率”指标对于分析和维护最佳 VM 性能至关重要。如前所述,VM 中的每个进程都在 vCPU 上运行,利用主机上的物理核心执行。当主机线程完全被利用时,VM 中的进程可能会成为瓶颈,导致严重的性能下降。

GPU 利用率

NVIDIA 系统管理界面 (nvidia-smi) 监控 GPU 利用率,指示每个 GPU 随时间处理的工作负载。它可以深入了解 vGPU 支持的虚拟机如何在主机服务器上利用 NVIDIA GPU。

上一篇 工具
下一篇 性能分析
© 版权所有 © 2013-2025, NVIDIA Corporation。 上次更新时间:2025 年 1 月 14 日。