NVIDIA 文档中心 NVIDIA 虚拟 GPU (vGPU) 软件 NVIDIA RTX vWS：虚拟化工作负载的尺寸调整和 GPU 选择指南示例 VDI 部署配置

示例 VDI 部署配置

特定于应用程序的尺寸调整使用基准测试结果和典型用户配置来回答三个常见问题

我的业务需求应该使用哪种 NVIDIA 数据中心 GPU？
如何为我的用户类型选择正确的配置文件？
每台服务器可以支持多少用户（用户密度）？

用户行为各不相同，并且严重影响最佳 GPU 和配置文件大小。为三种用户类型提供建议，每种用户类型都有两个服务质量 (QoS) 级别：专用性能和典型客户部署。

用户类型

轻度用户：图形要求低，模型尺寸较小。
中度用户：图形要求适中，模型尺寸中等。
重度用户：图形要求高，数据集大。

提供了针对每种 QoS 级别中这些用户类型的建议以及服务器配置。这些是指导原则。最成功的部署始于概念验证 (POC) 并不断调整。

如果性能是主要考虑因素，建议使用固定份额调度器和更大的配置文件大小，从而减少每台服务器的用户数量。然而，大多数部署都使用尽力而为 GPU 调度器策略，以获得更好的 GPU 利用率，支持更多每台服务器的用户并提高每用户的 TCO。在比较选项时，请记住调度策略。

注意

有关 vGPU 调度策略的详细说明，请参阅了解 GPU 调度器部分。

下表总结了典型客户部署的调查结果

*表 17 - 典型客户部署*
轻度用户	中度用户	重度用户
每台服务器 16-24 个用户用户 VM 配置 L40S-4Q 4vCPU 8-16GB 内存 1U 或 2U 服务器配置	每台服务器 9-18 个用户用户 VM 配置 L40S-4Q、L40S-6Q、L40S-8Q 8vCPU 16-32GB 内存 1U 或 2U 服务器配置	每台服务器 6-12 个用户用户 VM 配置 L40S-12Q、L40S-16Q、L40S-24Q 12vCPU+ 32-64GB 内存 1U 或 2U 服务器配置

虽然 NVIDIA 建议将 L40S 用于 RTX vWS 部署，但 A16 适用于轻量级入门级虚拟工作站用例。为了获得最佳性能，建议在 NVIDIA A16 上部署虚拟工作站时使用至少 8GB 的配置文件。此配置每 GPU 最多支持 2 个用户，每 A16 板最多支持 8 个用户。

A16 每个板卡提供 4 个 GPU 的额外灵活性，每个 GPU 配备 16 GB 内存（总共 64 GB）。这使 IT 部门可以在单张板卡上部署多个配置文件大小和 vGPU 软件许可证。例如，A16 上的一个 GPU 可以支持 vPC 用户的 2B 配置文件，而同一板卡上的另一个 GPU 可以支持 RTX vWS 用户的 8Q 配置文件。强烈建议进行 POC 以确定 A16 是否满足您组织的密度和性能需求。有关 OEM 方面的考虑，请查阅vGPU 认证服务器以获取更多信息。

通过选择尽力而为 GPU 调度器策略，可以超额订阅 GPU 计算引擎，从而在空闲或低利用率期间最大化 GPU 使用率。在许多客户部署中，不太可能所有 12 个用户同时进行渲染，或者渲染程度达到专用性能测试中的水平。因此，选择尽力而为调度器通常会导致 GPU 计算引擎的 2-3 倍超额订阅，从而有效地支持 2-3 倍的用户数量。更高的可扩展性程度取决于用户典型的日常活动，例如会议次数、休息时长、多任务处理等。建议测试和验证合适的 GPU 调度策略，以满足用户的需求。

推荐的 vGPU 配置文件基于专用性能，首先了解工作站 GPU（例如，RTX 4000 Ada）的图形性能。然后将物理工作站卡的基准测试分数与虚拟 GPU 实现的分数对齐。下表总结了这些发现

*表 18 - 专用性能的参考服务器实验室构建*
用户类型	等效性能	用户每台服务器	vCPU	vGPU 配置文件	v内存	CPU	GPU	内存	存储类型	详细服务器规格
轻度	RTX A1000	18	4	L40S-8Q	8GB	英特尔至强 6746E	3 个 L40S	512GB	基于闪存	112 核，2GHz（Turbo 2.7GHz），128-512GB 内存，10 GbE 网络（最低）
中度	RTX 2000 Ada	12	8	L40S-12Q	16GB	英特尔至强 6731E	3 个 L40S	512GB	基于闪存	96 核，2.2GHz（Turbo 3.1GHz），512-768+GB 内存，10 GbE 网络（最低）
重度	RTX 4000 Ada	6	12	L40S-24Q	32GB	英特尔至强 6740E	3 个 L40S	512GB	基于闪存	96 核，2.4GHz（Turbo 3.2GHz），512-768+GB 内存，10 GbE 网络（最低）

以下示例说明了不同的服务质量 (QoS) 阈值如何通过应用各种 GPU 调度策略来影响每台服务器的用户数量。通过选择固定份额调度器，始终保证特定的 QoS。例如，L40S 上的六个用户将始终体验到类似于配备 NVIDIA RTX A1000 GPU 的工作站的性能。

相比之下，尽力而为调度器是企业最常见的选择，它不保证相同的 QoS 水平，但可以容纳更多体验 NVIDIA RTX A1000 级别性能的用户。但是，用户性能会根据同一 L40S 上其他用户的负载在任何给定时间波动。例如，L40S 上的单个用户将具有类似于 NVIDIA RTX A2000 的性能。随着用户密度增加到每 GPU 3-8 个用户，性能可以与配备 Quadro P620 卡的工作站相媲美。

此示例假设所有规模都具有足够的帧缓冲区，以演示 GPU 调度策略如何影响用户密度。

*表 19 - GPU 调度策略对用户密度的影响*
	专用性能（固定份额调度器）	典型客户配置（尽力而为调度器）
用户/服务器主机（3 个 NVIDIA L40S）	18（每 GPU 6 个用户，始终具有 RTX A1000 的性能）	16-24（每 GPU 3-8 个用户，具有 P620-A2000 的性能）

有关 GPU 调度选项以及如何配置服务器的更多信息，请参阅 NVIDIA 的 VMware 或 Citrix Hypervisor vGPU 部署指南。

本指南中提到的 NVIDIA 特定工具和第三方行业工具用于捕获 VM 和服务器级指标，以根据基准测试数据验证最佳性能和可扩展性。强烈建议您为每种部署类型进行概念验证 (POC)。这将使您能够使用客观测量来验证性能，并收集最终用户的主观反馈，以确保部署有效地满足他们的需求。

上一篇性能分析

下一篇部署最佳实践