DGX SuperPOD 的关键组件#

DGX SuperPOD 架构旨在最大限度地提高最先进模型训练的性能，扩展到百亿亿次浮点运算的性能，为存储提供最高性能，并为企业、高等教育、研究机构和公共部门的所有客户提供支持。它是 NVIDIA 主要研发系统的数字孪生，这意味着公司的软件、应用程序和支持结构首先在相同的架构上进行测试和审查。使用 SU，系统部署时间从数月缩短到数周。利用 DGX SuperPOD 设计缩短了下一代模型和应用程序的解决方案交付时间和上市时间。

DGX SuperPOD 是关键 NVIDIA 组件以及经过认证可在 DGX SuperPOD 环境中工作的合作伙伴存储解决方案的集成。

NVIDIA DGX H200 系统#

NVIDIA DGX H200 系统（图 1）是 AI 动力源，使企业能够扩展业务创新和优化的前沿。DGX H200 系统采用有史以来最强大的芯片，以八个 GPU 配置提供突破性的 AI 性能。NVIDIA Blackwell GPU 架构提供了最新的技术，可以将某些最大的 AI/ML 工作负载的计算工作从数月缩短到数天甚至数小时。

图 1. DGX H200 系统#

DGX H200 系统相对于 DGX H100 系统的主要亮点包括

1,128 GB 聚合 HBM3 内存

NVIDIA InfiniBand 技术#

InfiniBand 是一种高性能、低延迟、支持 RDMA 的网络技术，经过 20 多年在最严苛的计算环境中的验证，可提供最佳的节点间网络性能。InfiniBand 不断发展并引领数据中心网络性能。

最新一代 InfiniBand NDR 的峰值速度为每个方向 400 Gbps，端口到端口延迟极低。它向后兼容以前几代 InfiniBand 规范。InfiniBand 不仅仅是峰值带宽和低延迟。InfiniBand 提供额外的功能来优化性能，包括自适应路由 (AR)、使用 SHARP^TM 的集体通信、使用 SHIELD^TM 的动态网络修复，并支持多种网络拓扑，包括胖树、Dragonfly 和多维环面，以构建最大的结构和计算系统。

运行时和系统管理#

DGX SuperPOD RA 代表了构建高性能数据中心的最佳实践。这些系统如何呈现给客户和用户具有灵活性。NVIDIA Base Command Manager 软件用于管理所有 DGX SuperPOD 部署。

DGX SuperPOD 可以部署在本地，这意味着客户拥有和管理硬件，就像传统系统一样。这可以在客户的数据中心内，也可以在商业数据中心中进行托管，但客户拥有硬件。

组件#

表 1 描述了 DGX SuperPOD 的硬件组件。软件组件如表 2 所示。

表 1. DGX SuperPOD / 4 SU 硬件组件#
组件	技术	描述
计算节点	配备八个 H200 GPU 的 NVIDIA DGX H200 系统	世界一流的专用 AI 系统，采用 NVIDIA H200 Tensor Core GPU、第四代 NVIDIA NVLink 和第三代 NVIDIA NVSwitch™ 技术。
计算结构	NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand	导轨优化、非阻塞、全胖树网络，每个系统有八个 NDR400 连接
存储结构	NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand	该结构经过优化，可匹配配置存储阵列的峰值性能
计算/存储结构管理	NVIDIA Unified Fabric Manager 设备，企业版	NVIDIA UFM 结合了增强的实时网络遥测技术与 AI 驱动的网络智能和分析，以管理横向扩展的 InfiniBand 数据中心
带内管理网络	NVIDIA SN4600C 交换机	64 端口 100 Gbps 以太网交换机，提供高端口密度和高性能
带外 (OOB) 管理网络	NVIDIA SN2201 交换机	48 端口 1 Gbps 以太网交换机，利用铜缆端口最大限度地降低复杂性

表 2. DGX SuperPOD 软件组件#
组件	描述
NVIDIA Base Command Manager	用于 AI 集群的全面 AI 基础设施管理。它可以自动执行配置和管理，并支持数千个节点的集群规模。
NVIDIA AI Enterprise	面向 AI 从业人员的一流开发工具和框架，以及面向 IT 专业人员的可靠管理和编排
Magnum IO	提高 AI 和 HPC 的性能
NVIDIA NGC	NGC 目录提供了一系列针对 AI 和 HPC 优化的 GPU 加速容器
Slurm	一种经典的 workload 管理器，用于管理多节点、批处理式计算环境中的复杂 workload

设计要求#

DGX SuperPOD 旨在最大限度地减少紧密耦合配置中的系统瓶颈，以提供最佳性能和应用程序可扩展性。每个子系统都经过深思熟虑的设计，以实现此目标。此外，整体设计保持灵活性，以便可以根据数据中心要求进行定制，以更好地集成到现有数据中心中。

系统设计#

DGX SuperPOD 针对客户特定的多节点 AI 和 HPC 应用程序 workload 进行了优化

基于 SU 的模块化架构，每个 SU 包含 32 个 DGX H200 系统。
经过全面测试的系统可扩展到四个 SU，但可以根据客户要求构建更大的部署。
机架设计可以支持每个机架两个 DGX H200 系统，以便可以修改机架布局以适应不同的数据中心要求。
经过认证可在 DGX SuperPOD 环境中工作的存储合作伙伴设备。
完整的系统支持（包括计算、存储、网络和软件）由 NVIDIA 企业支持 (NVEX) 提供。

计算结构#

计算结构经过导轨优化，可到达结构的顶层。
计算结构是平衡的全胖树。
在整个设计中都使用了托管 NDR 交换机，以更好地管理结构。
该结构旨在支持最新的 SHaRPv3 功能。

存储结构#

存储结构为共享存储提供高带宽。它还具有以下特点

它独立于计算结构，以最大限度地提高存储和应用程序性能。
为每个 DGX H200 系统提供至少 40 GBps 的单节点带宽。
存储通过 InfiniBand 提供，并利用 RDMA 来提供最大性能并最大限度地减少 CPU 开销。
它具有灵活性，可以扩展以满足特定的容量和带宽要求。
用户可访问的管理节点提供对共享存储的访问。

带内管理网络#

带内管理网络结构基于以太网，用于节点配置、数据移动、互联网访问以及用户必须访问的其他服务。
计算和管理服务器的带内管理网络连接以 100 Gbps 的速度运行，并绑定以实现弹性。

带外管理网络#

OOB 管理网络连接所有基本管理控制器 (BMC) 端口，以及其他应与系统用户物理隔离的设备。

存储要求#

DGX SuperPOD 计算架构必须与高性能、平衡的存储系统配对，以最大限度地提高整体系统性能。DGX SuperPOD 旨在使用两个独立的存储系统：高性能存储 (HPS) 和用户存储，针对吞吐量、并行 I/O 以及更高的 IOPS 和元数据 workload 的关键操作进行了优化。

高性能存储#

HPS 必须提供

高性能、弹性、POSIX 风格的文件系统，针对跨多个节点的多线程读写操作进行了优化。
原生 InfiniBand 支持。
本地系统 RAM，用于数据的透明缓存。
透明地利用本地磁盘进行读写缓存。

用户存储#

用户存储必须

专为高元数据性能、IOPS 和关键企业功能（如检查点）而设计。这与 HPS 不同，后者针对并行 I/O 和大容量进行了优化。
通过以太网进行通信，以提供到存储的辅助路径，以便在存储结构或 HPS 发生故障时，管理员仍然可以并行访问和管理节点。