概述#
本规模调整指南旨在指导希望大规模使用 NVIDIA 认证系统实施 NVIDIA AI Enterprise 的客户。对于 NVIDIA AI Enterprise,建议使用至少包含四个节点的 NVIDIA 认证系统集群。此集群规模是最小可行规模,因为它为各种工作负载提供了 NVIDIA GPU 和 NVIDIA ConnectX-6 网络的均衡方法。集群也可以根据需要使用额外的节点进行扩展。
将讨论诸如通用机架级配置、电源、网络和存储的规模调整等主题。这些主题将侧重于 NVIDIA 认证系统的规范,适用于三种不同的配置级别:入门级、主流和最佳性能。服务器配置从入门级到最佳性能逐渐提高,并且这些配置彼此构建。
工作负载#
本规模调整指南中使用的基准并非包罗万象;它们提供了一个代表性的工作流程,并作为一个起点,可以根据您的环境在此基础上进行构建。用于本规模调整指南的机架密度和电源要求分析主要侧重于 AI Enterprise 用例。我们的规模调整专门关注多节点训练工作负载,因为此用例充分利用了 GPU 资源和电源要求,同时展示了线性横向扩展性能。每种配置(入门级、主流和最佳性能)都使用一个四节点集群用于以下深度学习训练工作流程
使用 Horovod、FP16、BS:512 的 Tensorflow ResNet-50 V1.5 训练
集群中的每个节点都是虚拟机 (VM),并配置为使用 NVIDIA vGPU 技术,使用完整的 1:1 vGPU 配置文件。有关其他 VM 和服务器配置信息,请参阅规模调整指南附录。
规模调整计算#
服务器制造商基础设施规划工具用于计算机架密度。这些工具可在线获取,并可作为 IT 专业人员确定实际、真实世界电源要求的资源。
规模调整计算和建议旨在指导并作为一个起点,可以根据您的环境在此基础上进行构建。我们规模调整计算的主要目标不是增加数据中心的电源要求,而是在现代数据中心机架的典型电源容量内工作。规模调整计算基于每个机架 14kW 冗余 PDU 和每台服务器双 1600W PSU,因为大多数企业数据中心都有这些要求。由于这些电源要求,主流和最佳性能配置导致每个机架的 GPU 节点少于仅 CPU 节点;然而,在执行 ResNet-50 工作负载基准测试时,GPU 加速节点提供了更高的性能(每秒图像数)。
规模调整概述#
以下段落描述了规模调整的概述。每种配置将在本文档的其余部分中进一步详细讨论。
NVIDIA AI Enterprise 集群的入门级配置可以快速部署到现有数据中心,而无需对环境进行重大调整。此配置通过利用现有的网络基础设施和现有的存储,保持与当前 2U 服务器节点相同的占用空间。入门级配置在性能和成本之间实现了平衡,与仅 CPU 相比,AI 训练工作负载的每个机架性能提高了高达 20 倍。
主流配置以入门级配置为基础,增加了存储、网络和 GPU 资源。此配置在执行多节点训练和推理作业时产生更快速的结果。一般来说,主流配置最适合企业,因为它提供了更高端的服务器规格,为混合工作负载提供了优化的性能,机架级别的性能提高了高达 30 倍。有关主流配置的示例部署的更多详细信息(超出本规模调整文档的范围)在 VMware vSphere 上的 NVIDIA AI Enterprise 参考架构中提供。
最佳性能配置以主流配置为基础,进一步提高了 GPU 功能和网络密度。此配置允许更多的向上扩展和横向扩展能力,从而进一步提高了运行训练和推理工作流程时的吞吐量,与仅 CPU 相比,每个机架的性能增量提高了 44 倍。