NVIDIA RTX vWS 推荐 NVIDIA GPU
表 2 列出了最新一代 NVIDIA 数据中心 GPU 的硬件规格,这些 GPU 推荐用于 NVIDIA RTX 虚拟工作站。
L40S 2 |
A16 3 |
L4 |
A40 |
A10 |
|
---|---|---|---|---|---|
GPU/板卡 (架构) | Ada Lovelace | Ampere | Ada Lovelace | Ampere | Ampere |
内存大小 | 48GB GDDR6 带 ECC | 4x 16 GB GDDR6 带 ECC | 24GB GDDR6 带 ECC | 48GB GDDR6 带 ECC | 24GB GDDR6 带 ECC |
vGPU 配置文件 | 1GB、2GB、3GB、4GB、6GB、8GB、12GB、16GB、24GB、48GB | 1GB、2GB、4GB、8GB、16GB | 1GB、2GB、3GB、4GB、6GB、8GB、12GB、24GB | 1GB、2GB、3GB、4GB、6GB、8GB、12GB、16GB、24GB、48GB | 1GB、2GB、3GB、4GB、6GB、8GB、12GB、24GB |
外形尺寸 | PCIe 全高全长适配器 4.4 英寸(高)x 10.5 英寸(长),双插槽 | PCIe 4.0 双插槽全长全高 (FHFL) | PCIe 薄型,单插槽 | PCIe 4.0 双插槽全长全高 (FHFL) | PCIe 4.0 单插槽全长全高 (FHFL) |
功耗 | 350W | 250W | 72W | 300W | 140W |
散热 | 被动 | 被动 | 被动 | 被动 | 被动 |
用例 | 加速深度学习和机器学习训练与推理。以及轻量级到高端 3D 设计和创意工作流程。灵活运行虚拟工作站和计算工作负载的混合工作负载 | 入门级虚拟工作站 M10 升级路径 | 端到端加速下一代 AI 应用,从生成式 AI、LLM 推理、小模型训练和微调,到 3D 图形、渲染和视频应用 T4 升级路径 | 轻量级到高端 3D 设计和创意工作流程。灵活运行虚拟工作站和计算工作负载的混合工作负载 | 是高性能中端虚拟工作站上运行的主流专业可视化应用的理想选择。 |
从 Maxwell GPU 切换到更新的 GPU(如 Pascal、Turing 和 Ampere GPU)时,必须调整环境大小。例如,NVIDIA T4 利用默认启用的 ECC 内存。启用后,由于需要使用额外的 VRAM 来存储 ECC 位本身,ECC 会产生 1/15 的开销成本;因此,vGPU 可用的帧缓冲区量会减少。有关每个虚拟机管理程序的更多信息,请参阅相应的 NVIDIA 文档,可在此处访问 此处。
对于 Ada 和 Ampere 架构,增加的帧缓冲区 (FB) 要求至关重要。不建议使用 1 或 2 GB 配置文件,因为它们在满足现代工作负载需求方面存在局限性。对于 L40S 或 A40 等 GPU,使用小型配置文件可能会很快导致通道限制。因此,选择更大的 FB 配置文件对于获得最佳性能至关重要。
需要考虑的要点
现代工作负载需求:高分辨率图形、AI 和数据密集型任务等应用需要大量的 GPU 内存。小型 FB 配置文件 (1-2 GB) 不足以满足这些应用的需求,会导致频繁的内存溢出和性能下降。
通道限制:GPU 的通道数量有限。较小的 FB 配置文件会快速耗尽这些通道,从而阻止高效的并行处理并导致应用程序错误。
性能优化:较大的 FB 配置文件提供必要的内存带宽和容量,以高效处理复杂的工作负载。使用较大的配置文件,您可以同时运行较少的 vGPU,但它们会收到更多通道,从而减少遇到通道限制的可能性,并确保流畅且一致的性能。
可扩展性:投资更大的 FB 配置文件不仅可以满足当前的需求,还可以为未来的工作负载增加提供缓冲,从而减少频繁升级的需求。
有关 GPU 通道计算的更多详细信息,请参阅了解 GPU 通道。
虚拟 GPU 类型 |
帧缓冲区 (GB) |
每个 GPU 的最大 vGPU 数(在 等尺寸模式下) |
每个 GPU 的最大 vGPU 数(在 混合尺寸模式下) |
用例 |
---|---|---|---|---|
A40-4Q | 4 | 12 | 8 | 虚拟工作站 (vWS) |
A40-8Q | 8 | 6 | 4 | 虚拟工作站 (vWS) |
L40S-8Q | 8 | 6 | 4 | 虚拟工作站 (vWS) |
L40S-16Q | 16 | 3 | 2 | 虚拟工作站 (vWS) |
有关等尺寸和混合尺寸模式的更多详细信息,请参阅vGPU 配置文件。
有关详细配置和其他指南,请参阅NVIDIA vGPU 用户指南。