DGX SuperPOD 的关键组件#
DGX SuperPOD 架构旨在最大限度地提高最先进模型训练的性能,扩展至 Exaflops 级的性能,为存储提供最高性能,并为企业、高等教育机构、研究机构和公共部门的所有客户提供支持。它是 NVIDIA 主要研发系统的数字孪生体,这意味着公司的软件、应用程序和支持结构首先在相同的架构上进行测试和验证。使用 SU,系统部署时间从数月缩短至数周。利用 DGX SuperPOD 设计可缩短下一代模型和应用程序的解决方案交付时间和上市时间。
DGX SuperPOD 是关键 NVIDIA 组件以及经过认证可在 DGX SuperPOD 环境中工作的合作伙伴存储解决方案的集成。
NVIDIA DGX H100 系统#
NVIDIA DGX H100 系统(图 1)是一个 AI 强大平台,使企业能够扩展业务创新和优化的边界。DGX H100 系统是第四代 NVIDIA DGX 系统,在八个 GPU 配置中提供卓越的 AI 性能。NVIDIA Hopper GPU 架构提供最新的技术,例如 Transformer 引擎和第四代 NVLink 技术,这可以将某些最大型的 AI/ML 工作负载的计算工作量从数月缩短至数天和数小时。
图 1. DGX H100 系统
DGX H100 系统相对于 DGX A100 系统的一些主要亮点包括
FP8 精度下性能提升高达 9 倍,达到 32 PetaFLOPS。
双路 56 核第四代 Intel® Xeon® 可扩展处理器,支持 PCIe 5.0 和 DDR5 内存。
网络和存储速度提升 2 倍,@ 400 Gbps InfiniBand/以太网,采用 NVIDIA ConnectX®-7 智能网络接口卡 (SmartNIC)。
每个 GPU 带宽提升 1.5 倍,@ 900 GBps,采用第四代 NVIDIA NVLink。
640 GB 聚合 HBM3 内存,聚合内存带宽为 24 TB/s,比 DGX A100 系统高 1.5 倍。
NVIDIA InfiniBand 技术#
InfiniBand 是一种高性能、低延迟、支持 RDMA 的网络技术,经过 20 多年在最严苛的计算环境中的验证,可提供最佳的节点间网络性能。在 InfiniBand 贸易协会 (IBTA) 的推动下,它不断发展并引领数据中心网络性能。
最新一代 InfiniBand NDR 的峰值速度为每个方向 400 Gbps。它向后兼容先前几代 InfiniBand 规范。InfiniBand 不仅仅是峰值性能。InfiniBand 提供其他功能来优化性能,包括自适应路由 (AR)、使用 SHARPTM 的集合通信、使用 SHIELDTM 的动态网络修复,并支持多种网络拓扑,包括胖树、Dragonfly 和多维环网,以构建最大的结构和计算系统。
运行时和系统管理#
DGX SuperPOD RA 代表了构建高性能数据中心的最佳实践。这些系统如何呈现给客户和用户具有灵活性。NVIDIA Base Command 软件用于管理所有 DGX SuperPOD 部署。
DGX SuperPOD 可以部署在本地,这意味着客户拥有并管理硬件作为传统系统。这可以在客户的数据中心内,也可以在商业数据中心托管,但客户拥有硬件。对于本地解决方案,客户可以选择通过 NVIDIA NGC™ 使用安全的云原生界面来操作系统。
组件#
DGX SuperPOD 的硬件组件在表 1中描述。软件组件在表 2中显示。
表 1. DGX SuperPOD / 4 SU 配置组件
组件 |
技术 |
描述 |
---|---|---|
计算节点 |
NVIDIA DGX H100 系统,配备八个 80 GB H100 GPU |
世界一流的专用 AI 系统的第四代产品,采用 NVIDIA H100 Tensor Core GPU、第四代 NVIDIA NVLink 和第三代 NVIDIA NVSwitch™ 技术。 |
计算结构 |
NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand |
轨优化、全胖树网络,每个系统八个 NDR400 连接 |
存储结构 |
NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand |
该结构经过优化,可匹配配置存储阵列的峰值性能 |
计算/存储结构管理 |
NVIDIA Unified Fabric Manager 企业版 |
NVIDIA UFM 结合了增强的实时网络遥测技术与 AI 驱动的网络智能和分析功能,以管理横向扩展的 InfiniBand 数据中心 |
带内管理网络 |
NVIDIA SN4600C 交换机 |
64 端口 100 Gbps 以太网交换机,提供高端口密度和高性能 |
带外 (OOB) 管理网络 |
NVIDIA SN2201 交换机 |
48 端口 1 Gbps 以太网交换机,利用铜缆端口最大限度地降低复杂性 |
表 2. DGX SuperPOD 软件组件
组件 |
描述 |
---|---|
NVIDIA Base Command Manager <https://docs.nvda.net.cn/base-command-manager/index.html> |
为异构高性能计算 (HPC) 和 AI 服务器集群提供全面的集群管理解决方案。它可自动执行配置和管理,并支持多达数千个节点的集群 |
NVIDIA Base Command Platform <https://www.nvidia.com/en-us/data-center/base-command-platform/> |
一种面向企业级 AI 训练的软件服务,使企业及其数据科学家能够加速 AI 开发 |
NVIDIA AI Enterprise |
面向 AI 从业人员的一流开发工具和框架,以及面向 IT 专业人员的可靠管理和编排 |
Magnum IO |
提高 AI 和 HPC 的性能 |
NVIDIA NGC |
NGC 目录提供了一系列针对 AI 和 HPC 优化的 GPU 加速容器 |
Slurm |
Slurm 是一种经典的工作负载管理器,用于在多节点、批处理风格的计算环境中编排复杂的工作负载 |
设计要求#
DGX SuperPOD 旨在最大限度地减少紧密耦合配置中的系统瓶颈,从而提供最佳性能和应用程序可扩展性。每个子系统都经过周全设计,以实现此目标。此外,整体设计保持灵活,以便可以根据数据中心要求进行定制,从而更好地集成到现有数据中心中。
系统设计#
DGX SuperPOD 针对客户特定的多节点 AI、HPC 和混合应用程序工作负载进行了优化
基于 SU 的模块化架构,每个 SU 包含 32 个 DGX H100 系统。
经过全面测试的系统可扩展至四个 SU,但可以根据客户需求构建更大的部署。
机架设计可以支持每个机架一个、两个或四个 DGX H100 系统,以便可以修改机架布局以适应不同的数据中心要求。
已通过 DGX SuperPOD 环境认证的存储合作伙伴设备。
全面的系统支持(包括计算、存储、网络和软件)由 NVIDIA 企业支持 (NVES) 提供。
计算结构#
计算结构经过轨优化,可到达结构的顶层。
计算结构是一个均衡的全胖树。
整个设计中都使用了托管 NDR 交换机,以更好地管理结构。
该结构旨在支持最新的 SHARPv3 功能。
存储结构#
存储结构为共享存储提供高带宽。它还具有以下特性
它独立于计算结构,以最大限度地提高存储和应用程序性能。
为每个 DGX H100 系统提供至少 40 GBps 的单节点带宽。
存储通过 InfiniBand 提供,并利用 RDMA 以提供最大性能并最大限度地减少 CPU 开销。
它具有灵活性,可以扩展以满足特定的容量和带宽要求。
用户可访问的管理节点提供对共享存储的访问。
带内管理网络#
带内管理网络结构基于以太网,用于节点配置、数据移动、互联网访问以及用户必须可以访问的其他服务。
计算服务器和管理服务器的带内管理网络连接以 100 Gbps 的速度运行,并进行绑定以提高弹性。
带外管理网络#
OOB 管理网络连接所有基板管理控制器 (BMC) 端口,以及应与系统用户物理隔离的其他设备。
存储要求#
DGX SuperPOD 计算架构必须与高性能、均衡的存储系统配对,以最大限度地提高整体系统性能。DGX SuperPOD 旨在使用两个独立的存储系统:高性能存储 (HPS) 和用户存储,针对吞吐量、并行 I/O 以及更高的 IOPS 和元数据工作负载的关键操作进行了优化。
高性能存储#
HPS 必须提供
高性能、弹性、POSIX 风格的文件系统,针对跨多个节点的多线程读写操作进行了优化。
原生 InfiniBand 支持。
本地系统 RAM,用于透明地缓存数据。
透明地利用本地磁盘来缓存更大的数据集。
用户存储#
用户存储必须
专为高元数据性能、IOPS 和关键企业功能(如检查点)而设计。这与 HPS 不同,后者针对并行 I/O 和大容量进行了优化。
通过以太网进行通信,以提供到存储的辅助路径,以便在存储结构或 HPS 发生故障时,管理员仍然可以并行访问和管理节点。