DGX SuperPOD 的关键组件#
DGX SuperPOD 架构旨在最大限度地提高最先进模型训练的性能,扩展到百亿亿次浮点运算的性能,为存储提供最高性能,并为企业、高等教育、研究机构和公共部门的所有客户提供支持。它是 NVIDIA 主要研发系统的数字孪生,这意味着公司的软件、应用程序和支持结构首先在相同的架构上进行测试和审查。使用 SU,系统部署时间从数月缩短到数周。利用 DGX SuperPOD 设计缩短了下一代模型和应用程序的解决方案交付时间和上市时间。
DGX SuperPOD 是关键 NVIDIA 组件以及经过认证可在 DGX SuperPOD 环境中工作的合作伙伴存储解决方案的集成。
NVIDIA DGX H200 系统#
NVIDIA DGX H200 系统(图 1)是 AI 动力源,使企业能够扩展业务创新和优化的前沿。DGX H200 系统采用有史以来最强大的芯片,以八个 GPU 配置提供突破性的 AI 性能。NVIDIA Blackwell GPU 架构提供了最新的技术,可以将某些最大的 AI/ML 工作负载的计算工作从数月缩短到数天甚至数小时。

图 1. DGX H200 系统#
DGX H200 系统相对于 DGX H100 系统的主要亮点包括
1,128 GB 聚合 HBM3 内存
NVIDIA InfiniBand 技术#
InfiniBand 是一种高性能、低延迟、支持 RDMA 的网络技术,经过 20 多年在最严苛的计算环境中的验证,可提供最佳的节点间网络性能。InfiniBand 不断发展并引领数据中心网络性能。
最新一代 InfiniBand NDR 的峰值速度为每个方向 400 Gbps,端口到端口延迟极低。它向后兼容以前几代 InfiniBand 规范。InfiniBand 不仅仅是峰值带宽和低延迟。InfiniBand 提供额外的功能来优化性能,包括自适应路由 (AR)、使用 SHARPTM 的集体通信、使用 SHIELDTM 的动态网络修复,并支持多种网络拓扑,包括胖树、Dragonfly 和多维环面,以构建最大的结构和计算系统。
运行时和系统管理#
DGX SuperPOD RA 代表了构建高性能数据中心的最佳实践。这些系统如何呈现给客户和用户具有灵活性。NVIDIA Base Command Manager 软件用于管理所有 DGX SuperPOD 部署。
DGX SuperPOD 可以部署在本地,这意味着客户拥有和管理硬件,就像传统系统一样。这可以在客户的数据中心内,也可以在商业数据中心中进行托管,但客户拥有硬件。
组件#
表 1 描述了 DGX SuperPOD 的硬件组件。软件组件如表 2 所示。
组件 |
技术 |
描述 |
计算节点 |
配备八个 H200 GPU 的 NVIDIA DGX H200 系统 |
世界一流的专用 AI 系统,采用 NVIDIA H200 Tensor Core GPU、第四代 NVIDIA NVLink 和第三代 NVIDIA NVSwitch™ 技术。 |
计算结构 |
NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand |
导轨优化、非阻塞、全胖树网络,每个系统有八个 NDR400 连接 |
存储结构 |
NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand |
该结构经过优化,可匹配配置存储阵列的峰值性能 |
计算/存储结构管理 |
NVIDIA Unified Fabric Manager 设备,企业版 |
NVIDIA UFM 结合了增强的实时网络遥测技术与 AI 驱动的网络智能和分析,以管理横向扩展的 InfiniBand 数据中心 |
带内管理网络 |
NVIDIA SN4600C 交换机 |
64 端口 100 Gbps 以太网交换机,提供高端口密度和高性能 |
带外 (OOB) 管理网络 |
NVIDIA SN2201 交换机 |
48 端口 1 Gbps 以太网交换机,利用铜缆端口最大限度地降低复杂性 |
组件 |
描述 |
用于 AI 集群的全面 AI 基础设施管理。它可以自动执行配置和管理,并支持数千个节点的集群规模。 |
|
NVIDIA AI Enterprise |
面向 AI 从业人员的一流开发工具和框架,以及面向 IT 专业人员的可靠管理和编排 |
Magnum IO |
提高 AI 和 HPC 的性能 |
NVIDIA NGC |
NGC 目录提供了一系列针对 AI 和 HPC 优化的 GPU 加速容器 |
Slurm |
一种经典的 workload 管理器,用于管理多节点、批处理式计算环境中的复杂 workload |
设计要求#
DGX SuperPOD 旨在最大限度地减少紧密耦合配置中的系统瓶颈,以提供最佳性能和应用程序可扩展性。每个子系统都经过深思熟虑的设计,以实现此目标。此外,整体设计保持灵活性,以便可以根据数据中心要求进行定制,以更好地集成到现有数据中心中。
系统设计#
DGX SuperPOD 针对客户特定的多节点 AI 和 HPC 应用程序 workload 进行了优化
基于 SU 的模块化架构,每个 SU 包含 32 个 DGX H200 系统。
经过全面测试的系统可扩展到四个 SU,但可以根据客户要求构建更大的部署。
机架设计可以支持每个机架两个 DGX H200 系统,以便可以修改机架布局以适应不同的数据中心要求。
经过认证可在 DGX SuperPOD 环境中工作的存储合作伙伴设备。
完整的系统支持(包括计算、存储、网络和软件)由 NVIDIA 企业支持 (NVEX) 提供。
计算结构#
计算结构经过导轨优化,可到达结构的顶层。
计算结构是平衡的全胖树。
在整个设计中都使用了托管 NDR 交换机,以更好地管理结构。
该结构旨在支持最新的 SHaRPv3 功能。
存储结构#
存储结构为共享存储提供高带宽。它还具有以下特点
它独立于计算结构,以最大限度地提高存储和应用程序性能。
为每个 DGX H200 系统提供至少 40 GBps 的单节点带宽。
存储通过 InfiniBand 提供,并利用 RDMA 来提供最大性能并最大限度地减少 CPU 开销。
它具有灵活性,可以扩展以满足特定的容量和带宽要求。
用户可访问的管理节点提供对共享存储的访问。
带内管理网络#
带内管理网络结构基于以太网,用于节点配置、数据移动、互联网访问以及用户必须访问的其他服务。
计算和管理服务器的带内管理网络连接以 100 Gbps 的速度运行,并绑定以实现弹性。
带外管理网络#
OOB 管理网络连接所有基本管理控制器 (BMC) 端口,以及其他应与系统用户物理隔离的设备。
存储要求#
DGX SuperPOD 计算架构必须与高性能、平衡的存储系统配对,以最大限度地提高整体系统性能。DGX SuperPOD 旨在使用两个独立的存储系统:高性能存储 (HPS) 和用户存储,针对吞吐量、并行 I/O 以及更高的 IOPS 和元数据 workload 的关键操作进行了优化。
高性能存储#
HPS 必须提供
高性能、弹性、POSIX 风格的文件系统,针对跨多个节点的多线程读写操作进行了优化。
原生 InfiniBand 支持。
本地系统 RAM,用于数据的透明缓存。
透明地利用本地磁盘进行读写缓存。
用户存储#
用户存储必须
专为高元数据性能、IOPS 和关键企业功能(如检查点)而设计。这与 HPS 不同,后者针对并行 I/O 和大容量进行了优化。
通过以太网进行通信,以提供到存储的辅助路径,以便在存储结构或 HPS 发生故障时,管理员仍然可以并行访问和管理节点。