DGX SuperPOD 的关键组件#

DGX SuperPOD 架构旨在最大限度地提高最先进模型训练的性能,扩展到百亿亿次浮点运算的性能,为存储提供最高性能,并为企业、高等教育、研究机构和公共部门的所有客户提供支持。它是 NVIDIA 主要研发系统的数字孪生,这意味着公司的软件、应用程序和支持结构首先在相同的架构上进行测试和审查。使用 SU,系统部署时间从数月缩短到数周。利用 DGX SuperPOD 设计缩短了下一代模型和应用程序的解决方案交付时间和上市时间。

DGX SuperPOD 是关键 NVIDIA 组件以及经过认证可在 DGX SuperPOD 环境中工作的合作伙伴存储解决方案的集成。

NVIDIA DGX H200 系统#

NVIDIA DGX H200 系统(图 1)是 AI 动力源,使企业能够扩展业务创新和优化的前沿。DGX H200 系统采用有史以来最强大的芯片,以八个 GPU 配置提供突破性的 AI 性能。NVIDIA Blackwell GPU 架构提供了最新的技术,可以将某些最大的 AI/ML 工作负载的计算工作从数月缩短到数天甚至数小时。

_images/image3.png

图 1. DGX H200 系统#

DGX H200 系统相对于 DGX H100 系统的主要亮点包括

  • 1,128 GB 聚合 HBM3 内存

NVIDIA InfiniBand 技术#

InfiniBand 是一种高性能、低延迟、支持 RDMA 的网络技术,经过 20 多年在最严苛的计算环境中的验证,可提供最佳的节点间网络性能。InfiniBand 不断发展并引领数据中心网络性能。

最新一代 InfiniBand NDR 的峰值速度为每个方向 400 Gbps,端口到端口延迟极低。它向后兼容以前几代 InfiniBand 规范。InfiniBand 不仅仅是峰值带宽和低延迟。InfiniBand 提供额外的功能来优化性能,包括自适应路由 (AR)、使用 SHARPTM 的集体通信、使用 SHIELDTM 的动态网络修复,并支持多种网络拓扑,包括胖树、Dragonfly 和多维环面,以构建最大的结构和计算系统。

运行时和系统管理#

DGX SuperPOD RA 代表了构建高性能数据中心的最佳实践。这些系统如何呈现给客户和用户具有灵活性。NVIDIA Base Command Manager 软件用于管理所有 DGX SuperPOD 部署。

DGX SuperPOD 可以部署在本地,这意味着客户拥有和管理硬件,就像传统系统一样。这可以在客户的数据中心内,也可以在商业数据中心中进行托管,但客户拥有硬件。

组件#

表 1 描述了 DGX SuperPOD 的硬件组件。软件组件如表 2 所示。

表 1. DGX SuperPOD / 4 SU 硬件组件#

组件

技术

描述

计算节点

配备八个 H200 GPU 的 NVIDIA DGX H200 系统

世界一流的专用 AI 系统,采用 NVIDIA H200 Tensor Core GPU、第四代 NVIDIA NVLink 和第三代 NVIDIA NVSwitch™ 技术。

计算结构

NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand

导轨优化、非阻塞、全胖树网络,每个系统有八个 NDR400 连接

存储结构

NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand

该结构经过优化,可匹配配置存储阵列的峰值性能

计算/存储结构管理

NVIDIA Unified Fabric Manager 设备,企业版

NVIDIA UFM 结合了增强的实时网络遥测技术与 AI 驱动的网络智能和分析,以管理横向扩展的 InfiniBand 数据中心

带内管理网络

NVIDIA SN4600C 交换机

64 端口 100 Gbps 以太网交换机,提供高端口密度和高性能

带外 (OOB) 管理网络

NVIDIA SN2201 交换机

48 端口 1 Gbps 以太网交换机,利用铜缆端口最大限度地降低复杂性

表 2. DGX SuperPOD 软件组件#

组件

描述

NVIDIA Base Command Manager

用于 AI 集群的全面 AI 基础设施管理。它可以自动执行配置和管理,并支持数千个节点的集群规模。

NVIDIA AI Enterprise

面向 AI 从业人员的一流开发工具和框架,以及面向 IT 专业人员的可靠管理和编排

Magnum IO

提高 AI 和 HPC 的性能

NVIDIA NGC

NGC 目录提供了一系列针对 AI 和 HPC 优化的 GPU 加速容器

Slurm

一种经典的 workload 管理器,用于管理多节点、批处理式计算环境中的复杂 workload

设计要求#

DGX SuperPOD 旨在最大限度地减少紧密耦合配置中的系统瓶颈,以提供最佳性能和应用程序可扩展性。每个子系统都经过深思熟虑的设计,以实现此目标。此外,整体设计保持灵活性,以便可以根据数据中心要求进行定制,以更好地集成到现有数据中心中。

系统设计#

DGX SuperPOD 针对客户特定的多节点 AI 和 HPC 应用程序 workload 进行了优化

  • 基于 SU 的模块化架构,每个 SU 包含 32 个 DGX H200 系统。

  • 经过全面测试的系统可扩展到四个 SU,但可以根据客户要求构建更大的部署。

  • 机架设计可以支持每个机架两个 DGX H200 系统,以便可以修改机架布局以适应不同的数据中心要求。

  • 经过认证可在 DGX SuperPOD 环境中工作的存储合作伙伴设备。

  • 完整的系统支持(包括计算、存储、网络和软件)由 NVIDIA 企业支持 (NVEX) 提供。

计算结构#

  • 计算结构经过导轨优化,可到达结构的顶层。

  • 计算结构是平衡的全胖树。

  • 在整个设计中都使用了托管 NDR 交换机,以更好地管理结构。

  • 该结构旨在支持最新的 SHaRPv3 功能。

存储结构#

存储结构为共享存储提供高带宽。它还具有以下特点

  • 它独立于计算结构,以最大限度地提高存储和应用程序性能。

  • 为每个 DGX H200 系统提供至少 40 GBps 的单节点带宽。

  • 存储通过 InfiniBand 提供,并利用 RDMA 来提供最大性能并最大限度地减少 CPU 开销。

  • 它具有灵活性,可以扩展以满足特定的容量和带宽要求。

  • 用户可访问的管理节点提供对共享存储的访问。

带内管理网络#

  • 带内管理网络结构基于以太网,用于节点配置、数据移动、互联网访问以及用户必须访问的其他服务。

  • 计算和管理服务器的带内管理网络连接以 100 Gbps 的速度运行,并绑定以实现弹性。

带外管理网络#

OOB 管理网络连接所有基本管理控制器 (BMC) 端口,以及其他应与系统用户物理隔离的设备。

存储要求#

DGX SuperPOD 计算架构必须与高性能、平衡的存储系统配对,以最大限度地提高整体系统性能。DGX SuperPOD 旨在使用两个独立的存储系统:高性能存储 (HPS) 和用户存储,针对吞吐量、并行 I/O 以及更高的 IOPS 和元数据 workload 的关键操作进行了优化。

高性能存储#

HPS 必须提供

  • 高性能、弹性、POSIX 风格的文件系统,针对跨多个节点的多线程读写操作进行了优化。

  • 原生 InfiniBand 支持。

  • 本地系统 RAM,用于数据的透明缓存。

  • 透明地利用本地磁盘进行读写缓存。

用户存储#

用户存储必须

  • 专为高元数据性能、IOPS 和关键企业功能(如检查点)而设计。这与 HPS 不同,后者针对并行 I/O 和大容量进行了优化。

  • 通过以太网进行通信,以提供到存储的辅助路径,以便在存储结构或 HPS 发生故障时,管理员仍然可以并行访问和管理节点。