选择适合虚拟化的 NVIDIA GPU - NVIDIA 文档

最能满足您的工作负载要求的 GPU 取决于以下因素对您的重要性：原始性能、解决问题的时间、每美元性能、每瓦性能、外形尺寸以及任何功率和散热限制。

用于虚拟化的 NVIDIA GPU

表 4 总结了基于 NVIDIA Ampere 和 Ada GPU 架构的用于虚拟化工作负载的 NVIDIA GPU 的特性。

基于 NVIDIA Lovelace 和 Ampere GPU 架构的图形工作负载 GPU 具有第二代和第三代 RT Core。RT Core 是加速单元，专门用于以非凡的效率执行光线追踪操作。

表 4 中的 GPU 经过 NVIDIA 软件的测试和支持，用于虚拟化 GPU，特别是 NVIDIA 虚拟 GPU 软件。有关 NVIDIA 虚拟化 GPU 软件的完整产品支持矩阵，请参阅以下文档

虚拟 GPU 软件支持的产品

*表 4 - 推荐用于虚拟化的 NVIDIA GPU*
规格	L40S	L40	L4	A40	A10	A16	A2
GPU/板卡	1	1	1	1	1	4	1
架构	Lovelace	Lovelace	Lovelace	Ampere	Ampere	Ampere	Ampere
RTX 技术	✔	✔	✔	✔	✔	✔	✔
内存大小和类型	48GB GDDR6	48GB GDDR6	24GB GDDR6	48GB GDDR6	24GB GDDR6	64GB（每 GPU 16GB）GDDR6	16GB GDDR6
vGPU 配置文件大小 (GB)	1, 2, 3, 4, 6, 8, 12, 16, 24, 48	1, 2, 3, 4, 6, 8, 12, 16, 24, 48	1, 2, 3, 4, 6, 8, 12, 24	1, 2, 3, 4, 6, 8, 12, 16, 24, 48	1, 2, 3, 4, 6, 8, 12, 24	1, 2, 4, 8, 16	1, 2, 4, 8, 16
MIG 支持	否	否	否	否	否	否	否
NVLink 支持	否	否	否	是	否	否	否
外形尺寸	PCIe 4.0 双插槽 FHFL	PCIe 4.0 双插槽 FHFL	PCIe 4.0 单插槽 HHHL	PCIe 4.0 双插槽 FHFL	PCIe 4.0 单插槽 FHFL	PCIe 4.0 双插槽 FHFL	PCIe 4.0 单插槽 HHHL
功率 (W)	350	300	72	300	150	250	60
散热	被动	被动	被动	被动	被动	被动	被动
针对 ⁴ 优化	性能	性能	性能	性能	性能	密度	密度
目标工作负载	深度学习和机器学习训练与推理、视频转码、AI 音频和视频效果、渲染、数据分析、虚拟工作站和虚拟桌面	高端虚拟工作站或混合虚拟工作站和计算（AI 推理、数据科学）	VDI、中端到高端虚拟工作站和计算（AI 推理、视频）	高端虚拟工作站或混合虚拟工作站和计算（AI、数据科学）	入门级到中端虚拟工作站	知识工作者虚拟桌面	AI 推理、VDI 和虚拟工作站

NVIDIA® L40S 基于 NVIDIA Ada Lovelace GPU 架构，为数据中心和边缘服务器部署中的视觉计算和 AI 工作负载提供顶级性能。它具有 142 个第三代 RT Core 和 568 个第四代 Tensor Core，支持硬件加速光线追踪、革命性的 AI 功能、高级着色和强大的模拟功能。L40S 非常适合深度学习推理和训练、生成式 AI 工作负载、批量和实时渲染、虚拟工作站和云游戏。凭借 48GB 的图形内存，L40S 为现代数据中心中各种图形和计算任务提供卓越的性能。当与 NVIDIA RTX™ 虚拟工作站 (vWS) 软件结合使用时，它可以实现具有无与伦比的性能和安全性的强大虚拟工作站，可从任何设备访问。

NVIDIA L40

NVIDIA® L40 基于 NVIDIA Ada Lovelace GPU 架构，为数据中心提供前所未有的视觉计算性能，并提供革命性的神经图形、计算和 AI 功能，以加速要求最苛刻的视觉计算工作负载。L40 具有 142 个第三代 RT Core，可增强实时光线追踪功能，以及 568 个第四代 Tensor Core，支持 FP8 数据格式。这些新功能与最新一代 CUDA Core 和 48GB 图形内存相结合，可加速从高性能虚拟工作站实例到 NVIDIA Omniverse 中的大型数字孪生的视觉计算工作负载。NVIDIA L40 的性能是上一代产品的两倍，但功耗相同，因此非常适合提供现代数据中心所需的视觉计算能力和性能。当与 NVIDIA RTX™ 虚拟工作站 (vWS) 软件结合使用时，NVIDIA L40 可以从数据中心或云端向任何设备交付强大的虚拟工作站。数百万创意和技术专业人士可以从任何地方访问要求最苛刻的应用程序，并获得可与物理工作站媲美的惊人性能，同时满足对更高安全性的需求。

NVIDIA L4

NVIDIA Ada Lovelace L4 Tensor Core GPU 为企业、云和边缘的视频、AI、虚拟工作站和图形应用程序提供通用加速和能源效率。借助 NVIDIA 的 AI 平台和全栈方法，L4 针对大规模视频和推理进行了优化，适用于广泛的 AI 应用程序，以提供最佳的个性化体验。作为主流用途中最有效的 NVIDIA 加速器，配备 L4 的服务器的 AI 视频性能比 CPU 解决方案高 120 倍，生成式 AI 性能高 2.5 倍，图形性能也比上一代 GPU 高 4 倍以上。L4 的多功能性和节能、单插槽、矮板外形尺寸使其成为边缘、云和企业部署的理想选择。

NVIDIA A40

NVIDIA A40 GPU 构建于 RTX 平台之上，定位独特，可为运行专业可视化应用程序的高端虚拟工作站提供动力，加速要求最苛刻的图形工作负载。NVIDIA A40 的第二代 RT Core 使其能够为电影内容照片级渲染、建筑设计评估和产品设计虚拟原型等工作负载提供大幅加速。NVIDIA A40 具有 48 GB 帧缓冲区，但借助 NVIDIA® NVLink® GPU 互连，它可以支持高达 96 GB 的帧缓冲区，为支持大型动画、文件或模型的虚拟工作站提供动力。尽管 NVIDIA A40 具有 48 GB 帧缓冲区，但每个 GPU 的上下文切换限制将支持的最大用户数限制为 32 个。请参阅表 5，了解当每个用户拥有 1 GB 帧缓冲区的 vGPU 配置文件时，每个 GPU 可以支持多少 VDI 用户。

NVIDIA A40 也适用于在同一基础设施上运行 VDI 工作负载和计算工作负载。通过使用通用的虚拟化 GPU 加速服务器资源在用户登录时运行虚拟桌面和工作站，并在用户注销后运行计算工作负载，可以提高资源利用率。请从 NVIDIA 白皮书中了解更多信息，关于使用 NVIDIA 虚拟 GPU 为混合工作负载提供动力。

NVIDIA A16

NVIDIA A16 旨在为知识工作者 VDI 工作负载提供最具成本效益的图形性能。对于这些工作负载，用户访问办公效率应用程序、Web 浏览器和流媒体视频，最重要的考虑因素是实现最佳的每美元性能和每个服务器的最高用户密度。凭借每个板卡上的四个 GPU，NVIDIA A16 非常适合为这些工作负载提供最佳的每美元性能和每个 GPU 的大量用户。

NVIDIA A10

NVIDIA A10 旨在提供经济高效的图形性能，以加速和优化混合工作负载的性能。当与 NVIDIA RTX vWS 软件结合使用时，它可以在主流企业服务器上加速图形和视频处理以及 AI。其第二代 RT Core 使 NVIDIA A10 非常适合在高性能中端虚拟工作站上运行的主流专业可视化应用程序。

GPU 性能基准测试

GPU 性能基准测试衡量使用 NVIDIA GPU 虚拟化软件的虚拟化工作负载的 GPU 性能。为了衡量运行特定虚拟化工作负载的 GPU 的性能，在 GPU 上运行该工作负载的代表性基准测试。

在许多情况下，成本而不是原始性能是为特定工作负载选择合适的虚拟 GPU 解决方案的主要因素。因此，GPU 性能基准测试同时衡量原始性能和每美元性能。

除非另有说明，否则测试是在分配了物理 GPU 的所有帧缓冲区的 vGPU 配置文件下运行的。选择此 vGPU 配置文件大小是因为缩放的影响在不同的 GPU 之间没有变化 ⁵。

表 5 总结了基准测试的结果，以确定哪些 GPU 为特定图形工作负载提供最佳原始性能和最佳每美元性能。

注意

在根据原始性能或每美元性能选择 GPU 时，请仅将这些结果用作一般指南。所有结果均基于表 5 中列出的工作负载，这些工作负载可能与生产中使用的应用程序不同。

*表 5 - GPU 性能基准测试和结果*
工作负载	基准	最佳原始性能 GPU	最具成本效益的 GPU
知识工作者 VDI	NVIDIA nVector 数字工作者工作负载	NVIDIA L4	NVIDIA A16
专业图形	SPECviewperf 2020 (3840x2160)	NVIDIA L40S	NVIDIA L4

知识工作者 VDI

知识工作者 VDI 工作负载的 GPU 性能是通过使用 NVIDIA nVector 数字工作者工作负载基准测试来衡量的。NVIDIA nVector 数字工作者工作负载是一种基准测试工具，可模拟最终用户的工作流程并衡量用户体验的关键方面，包括最终用户延迟、帧率、图像质量和资源利用率。

测试结果

为知识工作者 VDI 工作负载提供最佳原始性能和成本效益的 GPU 列在表 5 中。对于知识工作者 VDI 工作负载，确定成本效益的主要因素是每美元性能和用户密度的结合。

随着更多知识工作者用户被添加到服务器，服务器消耗更多的 CPU 资源。为此工作负载添加 NVIDIA GPU 通过将图形渲染任务卸载到 GPU 来节省 CPU 资源。因此，最终用户的用户体验和性能得到改善。

*表 6 - 支持的最大 NVIDIA vPC 知识工作者数量（使用 1 GB 配置文件大小）*
GPU	每个 GPU 板卡的最大用户数	每个服务器的最大板卡数	每个服务器的最大用户数
A16	64	3	192
L4	24	6	144
A10	24	6	144
L40S	32	3	96
A40	32	3	96
T4	16	6	96

表 6 假设每个用户需要一个具有 1GB 帧缓冲区的 vGPU 配置文件。但是，要确定为您的环境中的用户提供最佳用户体验的配置文件大小，您必须进行概念验证 (POC)。

请参阅相应的尺寸调整指南以构建您的 NVIDIA vGPU 环境

NVIDIA vPC 尺寸调整指南

图 2 - NVIDIA vPC VDI 每个用户的成本

图 2 假设估计的 GPU 市场价格加上四年订阅的 NVIDIA vPC 软件的成本除以用户数量。

专业图形

专业图形工作负载的 GPU 性能是通过使用 SPECviewperf 2020 (3840x2160) 基准测试来衡量的。SPECviewperf 2020 是衡量专业应用程序图形性能的标准基准。它衡量在 OpenGL 和 DirectX 应用程序编程接口下运行的系统的 3D 图形性能。

测试结果

为专业图形工作负载提供最佳原始性能和成本效益的 GPU 列在表 5 中。对于专业图形工作负载，确定成本效益的主要因素是每美元性能。

*表 7 - 适用于专业图形工作负载的最佳 GPU*
最佳原始性能	最具成本效益
NVIDIA L40S	NVIDIA L4

图 3 - RTX vWS SPECviewperf2020 性能

图 4 - RTX vWS SPECviewperf2020 每美元性能

图 4 假设估计的 GPU 市场价格加上四年订阅的 NVIDIA RTX vWS 软件的成本。

基准服务器配置

用于基准测试专业图形工作负载的服务器配置列在表 8 中。

*表 8 - 用于基准测试专业图形工作负载的服务器配置*
属性	值
服务器 CPU	Intel(R) Xeon(R) Platinum 8462Y+
虚拟机监控程序软件	VMware ESXi 8.0 U1
VM vCPU	8 vCPU
VM vMemory	16 GB
VM 客户机操作系统	Windows 11 企业版
GPU 虚拟化软件	NVIDIA RTX vWS
虚拟 GPU 管理器驱动程序版本	550.54.02
客户机驱动程序版本	551.44
vGPU 配置文件	L4-24Q、A10-24Q、A16-16Q、A40-48Q、T4-16Q、L40S-48Q

[4]

性能优化的 GPU 旨在最大限度地提高特定类别的虚拟化工作负载的原始性能。它们通常推荐用于以下类别的虚拟化工作负载

运行专业可视化应用程序的高端虚拟工作站。
计算密集型工作负载，例如人工智能、深度学习或数据科学工作负载。

密度优化的 GPU 旨在最大限度地提高服务器中支持的 VDI 用户数量。它们通常推荐用于知识工作者虚拟桌面基础设施 (VDI)，以运行办公效率应用程序、流媒体视频和 Windows 操作系统。

[5]

假设所有 GPU 的所有 vGPU 上都有足够的帧缓冲区可用。