入门级集群配置#

入门级配置旨在直接部署到您现有的机架基础设施中,无需修改当前的电源或网络。此配置将使组织能够快速支持 AI Enterprise 工作负载,但与主流和最佳配置相比,其性能吞吐量潜力较低。

服务器和机架配置#

使用配备约 1600W 电源的 NVIDIA 认证系统服务器,可以在 14kW 机架中配置 17 - 20 个节点。

GPU 加速的企业/边缘 AI 工作负载需要最少的 CPU 周期。因此,入门级配置可以使用较低的 CPU 规格,例如 85W Intel Xeon Silver CPU。

下表说明了针对每种工作负载的入门级配置示例。此配置使用了现有的机架基础设施,无需修改电源或网络。

企业 AI / 边缘 AI / 数据分析

2U NVIDIA 认证系统

双 Intel Xeon Silver 4215 2.5G, 8核/16线程, 9.6GT/s,

11M 缓存, Turbo, HT (85W) DDR4-2400

24x 16GB RDIMM, 3200MT/s, 双列

2x 1.92TB SSD SATA 混合用途 6Gbps 512,

2.5 英寸热插拔 AG 驱动器, 3 DWPD, 10512 TBW

1x 16GB microSDHC/SDXC 卡

板载网络

双路热插拔冗余电源 (1+1), 1600W

NVIDIA ConnectX-6 Lx 25G 网卡

NVIDIA SN2410 机架顶部

1x NVIDIA A30 (可选: A100)

重要提示

NVIDIA A30 和 A100 GPU 均为仅计算 GPU,不适用于远程协作/ProViz 工作负载。

下表说明了使用现有电源和网络时的机架密度。重要的是要注意,即使在添加 GPU 资源时,机架密度也得以保持,因为我们的规模调整计算旨在通过降低 CPU 的规格来优化功耗,从而使用较低功耗的 CPU。

此机架配置将包含 20 个企业/边缘 AI 节点,需要约 12.4 kW 的功率。有关入门级规模调整计算的其他说明,请参阅规模调整指南附录

企业 AI / 边缘 AI / 数据分析

_images/good-01.png

机架密度

20 个节点,需要约 12.4 kW 的功率

网络#

入门级配置网络选项取决于当前基础设施是基于 10G 还是 25G 网络。

如果当前基础设施基于 10G,则服务器可以利用板载/内置网络。如果现有基础设施支持 25G,建议使用 NVIDIA Mellanox ConnectX-6 LX PCIe,以及您现有的支持 RoCE 的 25G 交换机或与 NVIDIA® Mellanox® SN2410 交换机配对使用。这将在使用 AI Enterprise 多节点工作负载时带来更高的性能。

存储#

对于 AI Enterprise 多节点工作负载而言,优化存储访问至关重要;这取决于工作负载类型(例如训练或推理)以及数据集的大小。假设存储阵列无法及时提供对数据集的访问。在这种情况下,当 GPU 等待更多数据时,整体性能可能会受到影响。启用 NFS 缓存是入门级配置可以考虑的选项,以减少集中式存储阵列的负载。NFS 缓存可用于任何现有存储基础设施。有关 NFS 缓存及其优势的更多信息,请参阅DGX 最佳实践,深度学习的 NFS 缓存

性能#

通过将 A30 GPU 添加到现有机架基础设施,组织可以使用入门级配置显着提高 AI Enterprise 工作负载的性能吞吐量。与仅 CPU 节点机架相比,入门级配置可以将性能提高高达 20 倍

有关性能测试结果的更多信息,请参阅规模调整指南附录