尺寸调整方法

在部署 NVIDIA 虚拟 GPU (vGPU) 技术之前，强烈建议进行概念验证 (POC)。此初始阶段使您能够深入了解用户工作流程、评估 GPU 资源需求并收集反馈，以优化配置设置，从而获得最佳性能和可扩展性。本指南后续章节中提供的基准测试示例为尺寸调整部署提供了宝贵的见解。

用户行为差异很大，并且在确定合适的 GPU 和 vGPU 配置文件大小时起着关键作用。通常，建议根据用户的工作流程需求和数据/模型大小将用户分为轻度、中度和重度三种类型。例如，重度用户处理高级图形和更大的数据集，而轻度和中度用户对图形的要求较低，并且处理较小的模型。

以下各节深入探讨尺寸调整部署的方法和注意事项，确保与用户需求和性能期望保持一致。

vGPU 配置文件

NVIDIA vGPU 软件支持对 NVIDIA 数据中心 GPU 进行分区或碎片化。这些虚拟 GPU 资源通过 hypervisor 管理控制台中的 vGPU 配置文件分配给虚拟机 (VM)。

vGPU 配置文件决定了分配给 VM 的 GPU 帧缓冲区，这会显着影响 VDI 环境中的总体拥有成本、可扩展性、稳定性和性能。

每个 vGPU 配置文件都具有特定的帧缓冲区大小，支持多个显示头，并提供最大分辨率。这些配置文件分为不同的系列，每个系列都针对各种类型的工作负载进行了优化。配置文件是 vGPU 类型（例如 A、B、Q）和 vGPU 大小（以千兆字节为单位的 GPU 内存量）的组合。下表提供了有关所有许可级别的可用 vGPU 配置文件的更多详细信息和列表。

*表 15 - NVIDIA vGPU 配置文件*
vGPU 类型	最佳工作负载
Q-配置文件 ⁶	适用于需要 Quadro 技术的性能和功能的创意和技术专业人士的虚拟工作站
B-配置文件	适用于商务专业人士和知识工作者的虚拟桌面
A-配置文件	适用于虚拟应用程序用户的应用程序流式传输或基于会话的解决方案

注意

避免将 1A、2A 和 4A vGPU 配置文件用于 vApps，因为它们不适用，并且可能导致配置错误。

有关 vGPU 类型的更多信息，请参阅 vGPU 软件用户指南。

为部署选择合适的 vGPU 配置文件至关重要，因为它决定了可以部署的 vGPU 支持的 VM 的数量。

支持两种类型的部署配置

等大小模式：一种配置，其中物理 GPU 被碎片化为具有相同帧缓冲区大小的 vGPU。托管在物理 GPU 上的所有 vGPU 必须具有相同的配置文件大小（相同的帧缓冲区大小），但允许具有不同的 vGPU 类型（例如，2Q 和 2B 可以托管在同一物理 GPU 上）。图 7 说明了 L4 GPU 上等大小模式的一些有效配置。
混合大小模式：一种配置，允许物理 GPU 同时支持具有不同 vGPU 配置文件大小（不同帧缓冲区大小）的 vGPU。此配置允许更灵活和高效地使用 GPU 资源，因为不同的 VM 可以具有不同的 GPU 需求。图 8 说明了 L40S GPU 上混合大小模式的一些有效配置。此功能在 vGPU 17.0 中引入，并在 KVM 和 vSphere 8U3 上受支持，确保了广泛的兼容性和增强的资源利用率。

NVIDIA L40S 的混合大小模式配置示例

图 8 - NVIDIA L40S 的混合大小模式配置示例

混合大小模式允许在同一物理 GPU 上支持不同的 vGPU 类型（A、B 和 Q 系列）以及不同的 vGPU 大小。例如，混合大小模式下的 L4 GPU 可以托管 L4-8Q 和 L4-2B vGPU 实例。但是，可以支持的给定大小的 vGPU 实例的最大数量是最接近等大小模式下实例数量的 2 的幂。

在下面的示例中，我们看到具有 48 GB GPU 内存的 L40S GPU 可以支持

等大小模式下 6 个 L40S-8Q 配置文件实例
混合大小模式下 4 个 L40S-8Q 配置文件实例

*表 16 - L40S-8Q vGPU 配置文件*
虚拟 GPU 类型	帧缓冲区 (MB)	每个 GPU 的最大 vGPU 数，采用等大小模式	每个 GPU 的最大 vGPU 数，采用混合大小模式
L40S-8Q	8192	6	4

有关更多信息，请参阅单个 GPU 上的有效分时虚拟 GPU 配置。

下图显示了基于 Ada Lovelace GPU 架构（总共 48 GB 帧缓冲区）的 GPU 上每种大小的 vGPU 的支持放置位置，采用混合大小模式

图 9 - 具有 48 GB 帧缓冲区的 Ada Lovelace GPU 的 vGPU 放置位置

有关更多详细信息，请参阅混合大小模式下 GPU 的 vGPU 放置位置。

注意

多会话桌面需要仔细考虑 GPU 内存。我们建议根据 POC 测试的结果选择较大的 vGPU 配置文件大小。进行 POC 对于确定合适的 vGPU 配置文件大小、解决潜在瓶颈以及确保部署的解决方案满足所需的性能标准至关重要。

许多现代服务器 CPU 和 hypervisor CPU 调度程序都支持诸如 Intel 的超线程或 AMD 的同步多线程之类的功能，从而允许过度提交或超额订阅 CPU 资源。此功能使虚拟 CPU (vCPU) 的总数超过服务器中物理 CPU 内核的数量。超额订阅比率会显着影响 NVIDIA RTX vWS 实现的性能和可扩展性。通常，建议的起始 CPU 超额订阅比率为 2:1，这意味着每个物理 CPU 内核分配两个虚拟 CPU。但是，实际比率应根据具体的应用程序要求和工作流程进行调整。

注意

vGPU 超额订阅目前不可用。

[6]

Q-配置文件需要 NVIDIA RTX vWS 许可证。

vGPU 配置文件

NVIDIA L4 的等大小模式配置示例

NVIDIA L40S 的混合大小模式配置示例

vCPU 超额订阅