DGX SuperPOD 的关键组件#

DGX SuperPOD 架构旨在最大限度地提高最先进模型训练的性能，扩展至 Exaflops 级的性能，为存储提供最高性能，并为企业、高等教育机构、研究机构和公共部门的所有客户提供支持。它是 NVIDIA 主要研发系统的数字孪生体，这意味着公司的软件、应用程序和支持结构首先在相同的架构上进行测试和验证。使用 SU，系统部署时间从数月缩短至数周。利用 DGX SuperPOD 设计可缩短下一代模型和应用程序的解决方案交付时间和上市时间。

DGX SuperPOD 是关键 NVIDIA 组件以及经过认证可在 DGX SuperPOD 环境中工作的合作伙伴存储解决方案的集成。

NVIDIA DGX H100 系统#

NVIDIA DGX H100 系统（图 1）是一个 AI 强大平台，使企业能够扩展业务创新和优化的边界。DGX H100 系统是第四代 NVIDIA DGX 系统，在八个 GPU 配置中提供卓越的 AI 性能。NVIDIA Hopper GPU 架构提供最新的技术，例如 Transformer 引擎和第四代 NVLink 技术，这可以将某些最大型的 AI/ML 工作负载的计算工作量从数月缩短至数天和数小时。

图 1. DGX H100 系统

DGX H100 系统相对于 DGX A100 系统的一些主要亮点包括

FP8 精度下性能提升高达 9 倍，达到 32 PetaFLOPS。

双路 56 核第四代 Intel® Xeon® 可扩展处理器，支持 PCIe 5.0 和 DDR5 内存。

网络和存储速度提升 2 倍，@ 400 Gbps InfiniBand/以太网，采用 NVIDIA ConnectX®-7 智能网络接口卡 (SmartNIC)。

每个 GPU 带宽提升 1.5 倍，@ 900 GBps，采用第四代 NVIDIA NVLink。

640 GB 聚合 HBM3 内存，聚合内存带宽为 24 TB/s，比 DGX A100 系统高 1.5 倍。

NVIDIA InfiniBand 技术#

InfiniBand 是一种高性能、低延迟、支持 RDMA 的网络技术，经过 20 多年在最严苛的计算环境中的验证，可提供最佳的节点间网络性能。在 InfiniBand 贸易协会 (IBTA) 的推动下，它不断发展并引领数据中心网络性能。

最新一代 InfiniBand NDR 的峰值速度为每个方向 400 Gbps。它向后兼容先前几代 InfiniBand 规范。InfiniBand 不仅仅是峰值性能。InfiniBand 提供其他功能来优化性能，包括自适应路由 (AR)、使用 SHARPTM 的集合通信、使用 SHIELDTM 的动态网络修复，并支持多种网络拓扑，包括胖树、Dragonfly 和多维环网，以构建最大的结构和计算系统。

运行时和系统管理#

DGX SuperPOD RA 代表了构建高性能数据中心的最佳实践。这些系统如何呈现给客户和用户具有灵活性。NVIDIA Base Command 软件用于管理所有 DGX SuperPOD 部署。

DGX SuperPOD 可以部署在本地，这意味着客户拥有并管理硬件作为传统系统。这可以在客户的数据中心内，也可以在商业数据中心托管，但客户拥有硬件。对于本地解决方案，客户可以选择通过 NVIDIA NGC™ 使用安全的云原生界面来操作系统。

组件#

DGX SuperPOD 的硬件组件在表 1中描述。软件组件在表 2中显示。

表 1. DGX SuperPOD / 4 SU 配置组件

组件	技术	描述
计算节点	NVIDIA DGX H100 系统，配备八个 80 GB H100 GPU	世界一流的专用 AI 系统的第四代产品，采用 NVIDIA H100 Tensor Core GPU、第四代 NVIDIA NVLink 和第三代 NVIDIA NVSwitch™ 技术。
计算结构	NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand	轨优化、全胖树网络，每个系统八个 NDR400 连接
存储结构	NVIDIA Quantum QM9700 NDR 400 Gbps InfiniBand	该结构经过优化，可匹配配置存储阵列的峰值性能
计算/存储结构管理	NVIDIA Unified Fabric Manager 企业版	NVIDIA UFM 结合了增强的实时网络遥测技术与 AI 驱动的网络智能和分析功能，以管理横向扩展的 InfiniBand 数据中心
带内管理网络	NVIDIA SN4600C 交换机	64 端口 100 Gbps 以太网交换机，提供高端口密度和高性能
带外 (OOB) 管理网络	NVIDIA SN2201 交换机	48 端口 1 Gbps 以太网交换机，利用铜缆端口最大限度地降低复杂性

表 2. DGX SuperPOD 软件组件

组件	描述
NVIDIA Base Command Manager <https://docs.nvda.net.cn/base-command-manager/index.html>	为异构高性能计算 (HPC) 和 AI 服务器集群提供全面的集群管理解决方案。它可自动执行配置和管理，并支持多达数千个节点的集群
NVIDIA Base Command Platform <https://www.nvidia.com/en-us/data-center/base-command-platform/>	一种面向企业级 AI 训练的软件服务，使企业及其数据科学家能够加速 AI 开发
NVIDIA AI Enterprise	面向 AI 从业人员的一流开发工具和框架，以及面向 IT 专业人员的可靠管理和编排
Magnum IO	提高 AI 和 HPC 的性能
NVIDIA NGC	NGC 目录提供了一系列针对 AI 和 HPC 优化的 GPU 加速容器
Slurm	Slurm 是一种经典的工作负载管理器，用于在多节点、批处理风格的计算环境中编排复杂的工作负载

设计要求#

DGX SuperPOD 旨在最大限度地减少紧密耦合配置中的系统瓶颈，从而提供最佳性能和应用程序可扩展性。每个子系统都经过周全设计，以实现此目标。此外，整体设计保持灵活，以便可以根据数据中心要求进行定制，从而更好地集成到现有数据中心中。

系统设计#

DGX SuperPOD 针对客户特定的多节点 AI、HPC 和混合应用程序工作负载进行了优化

基于 SU 的模块化架构，每个 SU 包含 32 个 DGX H100 系统。

经过全面测试的系统可扩展至四个 SU，但可以根据客户需求构建更大的部署。

机架设计可以支持每个机架一个、两个或四个 DGX H100 系统，以便可以修改机架布局以适应不同的数据中心要求。

已通过 DGX SuperPOD 环境认证的存储合作伙伴设备。

全面的系统支持（包括计算、存储、网络和软件）由 NVIDIA 企业支持 (NVES) 提供。

计算结构#

计算结构经过轨优化，可到达结构的顶层。

计算结构是一个均衡的全胖树。

整个设计中都使用了托管 NDR 交换机，以更好地管理结构。

该结构旨在支持最新的 SHARPv3 功能。

存储结构#

存储结构为共享存储提供高带宽。它还具有以下特性

它独立于计算结构，以最大限度地提高存储和应用程序性能。

为每个 DGX H100 系统提供至少 40 GBps 的单节点带宽。

存储通过 InfiniBand 提供，并利用 RDMA 以提供最大性能并最大限度地减少 CPU 开销。

它具有灵活性，可以扩展以满足特定的容量和带宽要求。

用户可访问的管理节点提供对共享存储的访问。

带内管理网络#

带内管理网络结构基于以太网，用于节点配置、数据移动、互联网访问以及用户必须可以访问的其他服务。

计算服务器和管理服务器的带内管理网络连接以 100 Gbps 的速度运行，并进行绑定以提高弹性。

带外管理网络#

OOB 管理网络连接所有基板管理控制器 (BMC) 端口，以及应与系统用户物理隔离的其他设备。

存储要求#

DGX SuperPOD 计算架构必须与高性能、均衡的存储系统配对，以最大限度地提高整体系统性能。DGX SuperPOD 旨在使用两个独立的存储系统：高性能存储 (HPS) 和用户存储，针对吞吐量、并行 I/O 以及更高的 IOPS 和元数据工作负载的关键操作进行了优化。

高性能存储#

HPS 必须提供

高性能、弹性、POSIX 风格的文件系统，针对跨多个节点的多线程读写操作进行了优化。

原生 InfiniBand 支持。

本地系统 RAM，用于透明地缓存数据。

透明地利用本地磁盘来缓存更大的数据集。

用户存储#

用户存储必须

专为高元数据性能、IOPS 和关键企业功能（如检查点）而设计。这与 HPS 不同，后者针对并行 I/O 和大容量进行了优化。

通过以太网进行通信，以提供到存储的辅助路径，以便在存储结构或 HPS 发生故障时，管理员仍然可以并行访问和管理节点。