入门级集群配置#

入门级配置旨在直接部署到您现有的机架基础设施中，无需修改当前的电源或网络。此配置将使组织能够快速支持 AI Enterprise 工作负载，但与主流和最佳配置相比，其性能吞吐量潜力较低。

服务器和机架配置#

使用配备约 1600W 电源的 NVIDIA 认证系统服务器，可以在 14kW 机架中配置 17 - 20 个节点。

GPU 加速的企业/边缘 AI 工作负载需要最少的 CPU 周期。因此，入门级配置可以使用较低的 CPU 规格，例如 85W Intel Xeon Silver CPU。

下表说明了针对每种工作负载的入门级配置示例。此配置使用了现有的机架基础设施，无需修改电源或网络。

企业 AI / 边缘 AI / 数据分析
2U NVIDIA 认证系统
双 Intel Xeon Silver 4215 2.5G, 8核/16线程, 9.6GT/s, 11M 缓存, Turbo, HT (85W) DDR4-2400
24x 16GB RDIMM, 3200MT/s, 双列
2x 1.92TB SSD SATA 混合用途 6Gbps 512, 2.5 英寸热插拔 AG 驱动器, 3 DWPD, 10512 TBW
1x 16GB microSDHC/SDXC 卡
板载网络
双路热插拔冗余电源 (1+1), 1600W
NVIDIA ConnectX-6 Lx 25G 网卡
NVIDIA SN2410 机架顶部
1x NVIDIA A30 (可选: A100)

重要提示

NVIDIA A30 和 A100 GPU 均为仅计算 GPU，不适用于远程协作/ProViz 工作负载。

下表说明了使用现有电源和网络时的机架密度。重要的是要注意，即使在添加 GPU 资源时，机架密度也得以保持，因为我们的规模调整计算旨在通过降低 CPU 的规格来优化功耗，从而使用较低功耗的 CPU。

此机架配置将包含 20 个企业/边缘 AI 节点，需要约 12.4 kW 的功率。有关入门级规模调整计算的其他说明，请参阅规模调整指南附录。

企业 AI / 边缘 AI / 数据分析

机架密度

20 个节点，需要约 12.4 kW 的功率

网络#

入门级配置网络选项取决于当前基础设施是基于 10G 还是 25G 网络。

如果当前基础设施基于 10G，则服务器可以利用板载/内置网络。如果现有基础设施支持 25G，建议使用 NVIDIA Mellanox ConnectX-6 LX PCIe，以及您现有的支持 RoCE 的 25G 交换机或与 NVIDIA® Mellanox® SN2410 交换机配对使用。这将在使用 AI Enterprise 多节点工作负载时带来更高的性能。

存储#

对于 AI Enterprise 多节点工作负载而言，优化存储访问至关重要；这取决于工作负载类型（例如训练或推理）以及数据集的大小。假设存储阵列无法及时提供对数据集的访问。在这种情况下，当 GPU 等待更多数据时，整体性能可能会受到影响。启用 NFS 缓存是入门级配置可以考虑的选项，以减少集中式存储阵列的负载。NFS 缓存可用于任何现有存储基础设施。有关 NFS 缓存及其优势的更多信息，请参阅DGX 最佳实践，深度学习的 NFS 缓存。

性能#

通过将 A30 GPU 添加到现有机架基础设施，组织可以使用入门级配置显着提高 AI Enterprise 工作负载的性能吞吐量。与仅 CPU 节点机架相比，入门级配置可以将性能提高高达 20 倍。

有关性能测试结果的更多信息，请参阅规模调整指南附录。