测试结果
下表总结了单虚拟机测试配置的结果,其中我们基于 nVector KW 工作负载,探讨了更高分辨率和多显示器场景对帧缓冲区 (FB) 的影响。 随着显示器分辨率不断提高,屏幕上呈现的像素也越来越多。 因此,虚拟环境中的帧缓冲区使用量也会增加。 虽然高清 (1920x1080) 目前是最常见的分辨率,但越来越多的设备开始配备更高分辨率的屏幕。
nVector 知识工作者工作负载测试结果
分辨率 |
显示器 |
A16 vGPU 配置文件 |
---|---|---|
高清 1920x1080 | 1 | 1B |
2 | 2B | |
四倍高清 2560x1440 | 2 | 2B |
3 | 2B | |
4K 4096x2160 | 1 | 2B |
2 | 2B | |
5K 5120x2880 | 1 | 2B |
根据基准测试,测试您的工作负载以确保帧缓冲区大小适合您的用户。
知识工作者工作负载因用户而异,具体取决于多种因素,包括多个应用程序的使用、所用应用程序的类型、文件大小,以及显示器数量及其分辨率。 有关其他显示器和分辨率支持(包括混合显示器)的信息,请访问此处。 强烈建议您在 POC 期间测试您的工作负载,因为实际结果可能会有所不同。 我们的 nVector 测试结果仅供参考。
nVector 知识工作者工作负载旨在模拟重度使用场景,其中使用典型的生产力应用程序,所有并发用户同时积极使用系统资源。 这些结果旨在为管理员提供一个规划 POC 部署的概要。 您环境中的工作负载可能不如 nVector 知识工作负载的资源密集度高。
单虚拟机帧缓冲区分析结果用于尺寸调整目的,因为可以创建(然后分配给虚拟机)的最大 vGPU 数量由每个虚拟机的 GPU 内存量定义。 以下部分描述了虚拟机上针对 nVector KW 工作负载捕获的帧缓冲区使用情况。
高清 (1920x1080) 显示器
对于启用 GPU 的实例,增加显示器数量会导致屏幕上呈现更多像素。 我们的 nVector KW 工作负载报告称,当显示器从 1 个增加到 2 个时,帧缓冲区使用率平均增加了 15%。 以下图表展示了执行 nVector KW 工作负载时,单显示器和双显示器高清显示器上的帧缓冲区利用率

四倍高清 (2560x1440) 显示器
四倍高清 (2560x1440) 分辨率测试使用了 2 个、3 个和 4 个显示器执行。 四倍高清 (QHD) 的像素几乎是高清的两倍; 因此,QHD 显示器的帧缓冲区要求高于高清。 总体而言,我们针对 KW 工作负载的 nVector 测试结果表明,2B 配置文件足以支持 2 个 QHD 显示器。 当显示器从 2 个增加到 3 个时,帧缓冲区使用率增加了 15%。 2B 配置文件为 2 个和 3 个 QHD 显示器提供了足够的帧缓冲区。 以下部分描述了我们使用 nVector 的测试结果。
双 QHD 显示器测试结果
下图展示了在双 QHD 显示器上执行 nVector KW 工作负载时捕获的帧缓冲区使用情况。

三 QHD 显示器测试结果
下图展示了在单独的 nVector KW 工作负载测试中,当显示器从 2 个增加到 3 个 QHD 显示器时,对帧缓冲区的影响。

4K (4096x2160) 显示器
测试使用单个 4K 显示器以及双 4K 显示器执行。 nVector KW 工作负载测试结果表明,单个 4K 显示器的 2B vGPU 配置文件已足够; 但是,它确实利用了帧缓冲区。 基于此信息,当显示器数量增加到两个 4K 显示器时,管理员需要最好地确定 2B 配置文件是否可以在所需的性能水平下支持双 4K 显示器。
单 4K 显示器测试结果
下图展示了使用 2B 配置文件进行单 4K 显示器的 nVector KW 工作负载的帧缓冲区使用情况

双 4K 显示器测试结果
下图展示了使用 2B 配置文件进行双 4K 显示器配置的 nVector KW 工作负载的帧缓冲区使用情况

使用双 4K 显示器运行 nVector 知识工作者工作负载几乎会使 GPU 帧缓冲区饱和。
5K (5120x2880) 显示器
NVIDIA vPC 仅支持单个 5K 显示器,对于我们的 nVector KW 工作负载,基于已知的 5K 分辨率帧缓冲区要求,选择了 2B vGPU 配置文件。 5K 显示器的分辨率约为高清显示器 (1920x1080) 的七倍像素。 下图展示了 nVector KW 工作负载的帧缓冲区使用率

单虚拟机多显示器分辨率摘要
总而言之,在调整环境大小时,重要的是要记住一个好的经验法则是,对于 1GB (1B) 配置文件,帧缓冲区利用率在短时间内不应超过 90%,或平均超过 70%。 如果发现利用率过高,则应为 vPC 虚拟机分配 2GB (2B) 配置文件。 此外,在决定是否增加配置的显示器时,我们的 nVector KW 工作负载报告称,当显示器从 1 个增加到 2 个时,帧缓冲区使用率平均增加了 15%。
对于单高清或双高清配置,A16-1B 将足以满足大多数知识工作者的需求。 但是,如果 A16-1B 配置文件无法满足双高清配置的组织需求,则切换到 A16-2B 配置文件将是足够的。
四倍高清 (QHD) 的像素几乎是高清的两倍; 因此,QHD 显示器的帧缓冲区要求高于高清。 对于 QHD 配置,我们的 nVector 测试结果表明,2B 配置文件足以支持 2 个和 3 个 QHD 显示器。
对于单 4K 配置,2B 配置文件已足够,但是,它确实利用了帧缓冲区。 基于此信息,当显示器数量增加到两个 4K 显示器时,管理员需要最好地确定 2B 配置文件是否可以在给定用户应用程序利用率的情况下支持双 4K 显示器。
对于单个 5K 显示器,可以使用 A16-2B 配置文件,但是应再次注意,管理员将需要进行内部测试,以查看单个 5K 显示器是否可以支持其各自的工作负载。
nVector 知识工作者工作负载旨在模拟重度使用场景,其中使用典型的生产力应用程序,所有并发用户同时积极使用系统资源。 这些结果旨在为管理员提供一个规划 POC 部署的概要。 您环境中的工作负载可能不如 nVector 知识工作负载的资源密集度高。
在大型环境中运行单个虚拟机不允许您捕获生产环境的使用情况。 由于全高清目前是最常见的分辨率,因此本文档中的可扩展性测试结果侧重于双高清 (1920x1080) 显示器。 强烈建议您在 POC 期间测试您的工作负载,以获得最准确的结果。 我们的 nVector 测试结果仅供参考。
对于我们的服务器利用率测试,规模配置为 ESXi 主机上的 64 个虚拟机,配备 NVIDIA L4,对比 CPU 核心利用率与 GPU 利用率,以显示使用 NVIDIA GPU 的 CPU 卸载。
较新架构上的总体帧缓冲区占用空间更大,导致 Ada 比 Turing 的占用空间更大。 Ada 默认 CUDA 缓冲区大小的增加(由更多数量的 TPC 和 SM 驱动)导致对帧缓冲区的需求增加。 因此,进行 POC 是必要的,以便更好地了解性能、所需的配置文件、虚拟机扩展和整体适用性。
为了展示用户体验,测试使用了相同的 CPU 和服务器配置进行。 测试包括使用两个 NVIDIA A16 GPU 的 128 虚拟机测试和使用三个 NVIDIA L4 GPU 的 64 虚拟机测试。 根据 nVector 的用户体验指标,使用两个 A16 GPU 的 128 虚拟机测试表现出与使用三个 L4 GPU 的 64 虚拟机测试相似的性能指标。 在保持相同 CPU 的情况下,NVIDIA A16 有效地使我们的密度翻了一番,同时确保了与上一代 NVIDIA L4 相当的一致用户体验。
下表总结了多显示器高分辨率测试环境以及每个可扩展性测试使用了多少 NVIDIA GPU
大规模虚拟机数量 |
GPU 卡数量 |
vGPU 配置文件 |
显示器分辨率 |
显示器数量 |
---|---|---|---|---|
64 | 3 | L4-1B | 1920x1080 | 2 |
128 | 2 | A16-1B | 1920x1080 | 2 |
在此过程中,基准测试用于在多个虚拟机上执行各种 nVector KW 工作流程,启动和结束时间在整个环境中交错。
服务器利用率指标
即使存在虚拟 GPU,为虚拟化选择正确的 CPU 和正确的配置也可能直接影响可扩展性。 处理器资源通常是超线程的,并且在一定程度上是过度配置的。 在 CPU 规格方面,您应该评估内核数量和时钟速度。 以下段落描述了我们使用 64 个虚拟机时的测试结果
下图展示了使用 Intel Xeon Gold 6338 3.2 GHz Turbo (Ice Lake) 进行 64 个虚拟机的 CPU 核心利用率。 此服务器配置具有 64 个内核,并启用了超线程。

此 64 虚拟机 L4 测试的图表显示,随着 GPU 利用率在 nVector KW 工作负载测试期间逐渐升高,CPU 核心利用率被卸载并相应下降。
nVector 用户体验指标
为了进一步评估最终用户体验和资源利用率之间的权衡,我们使用了 nVector 的内置机制来衡量用户体验。 以下部分描述了我们使用相同服务器规格和 CPU 的 128 A16 vPC 虚拟机测试与 64 L4 vPC 虚拟机测试的 nVector KW 工作负载的发现。
我们的结果表明,NVIDIA A16 和 NVIDIA L4 都具有一致的用户体验和性能,但是 NVIDIA A16 使我们在服务器中的密度增加了一倍,达到 128 个虚拟机。
帧率
nVector 基准测试工具捕获帧率,这为确定最终用户体验提供了一个极好的指标。 提供一致且高帧率可以为用户带来更流畅的体验,而不一致的帧率将创建不太理想的体验。
下图展示了运行 nVector KW 工作负载时,双高清 1920x1080 显示器的帧率差异。 NVIDIA A16 和 NVIDIA L4 之间的平均帧率几乎相同,A16 略有优势。

延迟指标
nVector 基准测试工具捕获的另一个关键指标是延迟,或者在本例中为最终用户延迟。 延迟会影响鼠标速度、屏幕上显示的字符滞后于键入的内容以及视频播放不佳。
下图展示了运行 nVector KW 工作负载时,双高清 1920x1080 显示器的最终用户延迟。 与 L4 相比,A16 的用户延迟增加了 8%。 但是,NVIDIA A16 能够使我们在服务器中的密度增加一倍。 在性能和密度之间取得平衡最好由管理员在进行内部 POC 时确定,以适当满足组织的需求。

编码器利用率
编码器利用率是反映编码器处理数据效率的关键指标。 在我们使用 nVector 基准测试工具对 NVIDIA L4 和 NVIDIA A16 进行的测试中,我们观察到,对于 64 虚拟机和 128 虚拟机测试,编码器利用率始终保持在良好范围内。 该图表说明 L4 和 A16 之间的结果几乎相同,表明编码器利用率针对两种配置都得到了很好的优化。 这种一致性表明,无论具体的硬件型号是 L4 还是 A16,编码器都在有效地处理处理负载,从而在不同的场景中提供可靠且可比较的性能。

图像质量
nVector 基准测试工具计算图像质量。 它由远程协议、配置以及 VDI 环境中设置的策略决定(有关我们测试中使用的配置,请参阅附录 A)。 低于 0.90 的图像质量可能会导致文本显示、线条清晰度和其他图形问题。
我们的 nVector 测试表明,使用 vPC 的 GPU 加速虚拟机可提供毫不妥协的图像质量,因为使用双高清 1920x1080 显示器的屏幕捕获的 SSIM。 vPC 虚拟机的 NVIDIA A16 和 NVIDIA L4 测试均报告高于 0.90 阈值,达到出色的 0.98 SSIM。

多显示器分辨率可扩展性摘要
为了回顾我们的多显示器分辨率可扩展性测试,我们对使用两个 NVIDIA A16 的 128 虚拟机测试与使用四个 NVIDIA L4 的 64 虚拟机测试使用了相同的 CPU 和服务器配置。 用户体验指标(如帧率、最终用户延迟和图像质量)被注意到在 NVIDIA A16 中具有与 NVIDIA L4 相似的性能水平。 但是,在相同的 CPU 下,NVIDIA A16 有效地使我们的密度翻了一番,同时提供了与下一代 NVIDIA L4 一致的用户体验。
在评估 GPU 对 CPU 卸载的 64 虚拟机 L4 测试期间,GPU 利用率有效地显示出在 nVector 工作负载期间与 CPU 核心利用率同步升高,CPU 核心利用率被卸载并相应下降。
管理员应期望使用双高清配置可靠地将配备 2 个 NVIDIA A16 的 NVIDIA 认证扩展到 128 个虚拟机,以获得最佳密度。 此外,管理员应期望在使用双高清配置扩展到 64 个虚拟机的 NVIDIA 认证服务器时,获得与 4 个 NVIDIA L4 相似的性能。