入门级集群配置#
入门级配置旨在直接部署到您现有的机架基础设施中,无需修改当前的电源或网络。此配置将使组织能够快速支持 AI Enterprise 工作负载,但与主流和最佳配置相比,其性能吞吐量潜力较低。
服务器和机架配置#
使用配备约 1600W 电源的 NVIDIA 认证系统服务器,可以在 14kW 机架中配置 17 - 20 个节点。
GPU 加速的企业/边缘 AI 工作负载需要最少的 CPU 周期。因此,入门级配置可以使用较低的 CPU 规格,例如 85W Intel Xeon Silver CPU。
下表说明了针对每种工作负载的入门级配置示例。此配置使用了现有的机架基础设施,无需修改电源或网络。
企业 AI / 边缘 AI / 数据分析 |
---|
2U NVIDIA 认证系统 |
双 Intel Xeon Silver 4215 2.5G, 8核/16线程, 9.6GT/s, 11M 缓存, Turbo, HT (85W) DDR4-2400 |
24x 16GB RDIMM, 3200MT/s, 双列 |
2x 1.92TB SSD SATA 混合用途 6Gbps 512, 2.5 英寸热插拔 AG 驱动器, 3 DWPD, 10512 TBW |
1x 16GB microSDHC/SDXC 卡 |
板载网络 |
双路热插拔冗余电源 (1+1), 1600W |
NVIDIA ConnectX-6 Lx 25G 网卡 |
NVIDIA SN2410 机架顶部 |
1x NVIDIA A30 (可选: A100) |
重要提示
NVIDIA A30 和 A100 GPU 均为仅计算 GPU,不适用于远程协作/ProViz 工作负载。
下表说明了使用现有电源和网络时的机架密度。重要的是要注意,即使在添加 GPU 资源时,机架密度也得以保持,因为我们的规模调整计算旨在通过降低 CPU 的规格来优化功耗,从而使用较低功耗的 CPU。
此机架配置将包含 20 个企业/边缘 AI 节点,需要约 12.4 kW 的功率。有关入门级规模调整计算的其他说明,请参阅规模调整指南附录。
企业 AI / 边缘 AI / 数据分析 |
---|
![]() |
机架密度 20 个节点,需要约 12.4 kW 的功率 |
网络#
入门级配置网络选项取决于当前基础设施是基于 10G 还是 25G 网络。
如果当前基础设施基于 10G,则服务器可以利用板载/内置网络。如果现有基础设施支持 25G,建议使用 NVIDIA Mellanox ConnectX-6 LX PCIe,以及您现有的支持 RoCE 的 25G 交换机或与 NVIDIA® Mellanox® SN2410 交换机配对使用。这将在使用 AI Enterprise 多节点工作负载时带来更高的性能。
存储#
对于 AI Enterprise 多节点工作负载而言,优化存储访问至关重要;这取决于工作负载类型(例如训练或推理)以及数据集的大小。假设存储阵列无法及时提供对数据集的访问。在这种情况下,当 GPU 等待更多数据时,整体性能可能会受到影响。启用 NFS 缓存是入门级配置可以考虑的选项,以减少集中式存储阵列的负载。NFS 缓存可用于任何现有存储基础设施。有关 NFS 缓存及其优势的更多信息,请参阅DGX 最佳实践,深度学习的 NFS 缓存。
性能#
通过将 A30 GPU 添加到现有机架基础设施,组织可以使用入门级配置显着提高 AI Enterprise 工作负载的性能吞吐量。与仅 CPU 节点机架相比,入门级配置可以将性能提高高达 20 倍。
有关性能测试结果的更多信息,请参阅规模调整指南附录。