摘要#

采用 NVIDIA DGX™ H100 系统的 NVIDIA DGX SuperPOD™ 是用于人工智能 (AI) 的下一代数据中心架构。它旨在提供解决 AI、高性能计算 (HPC) 以及混合应用(两者结合可提高预测性能和缩短解决方案交付时间)中高级计算挑战所需的计算性能水平。DGX SuperPOD 基于 NVIDIA 为内部研究目的而构建的基础设施,旨在解决当今最具挑战性的计算问题。基于 DGX SuperPOD 架构的系统已在全球客户数据中心和云服务提供商处部署。

为了实现最佳可扩展性,DGX SuperPOD 由多项关键 NVIDIA 技术提供支持,包括

  • NVIDIA DGX H100 系统 — 为 AI 和 HPC 提供最强大的计算构建块。

  • NVIDIA NDR (400 Gbps) InfiniBand — 带来最高性能、最低延迟和最具可扩展性的网络互连。

  • NVIDIA NVLink® 技术 — 网络技术,可在 NVLink 层连接 GPU,为最苛刻的通信模式提供前所未有的性能。

_images/abstract-01.png

DGX SuperPOD 架构由 NVIDIA 解决方案管理,包括 NVIDIA Base Command™、NVIDIA AI Enterprise、CUDA 和 NVIDIA Magnum IO™。这些技术有助于系统以最高的可用性和性能水平运行,并通过 NVIDIA 企业支持 (NVEX) 确保所有组件和应用程序平稳运行。

本参考架构 (RA) 讨论了定义 DGX SuperPOD 可扩展和模块化架构的组件。该系统基于可扩展单元 (SU) 的构建块构建,每个单元包含 32 个 DGX H100 系统,从而可以快速部署多种尺寸的系统。本 RA 包括有关 SU 设计以及 InfiniBand、NVLink 网络、以太网结构拓扑、存储系统规范、推荐的机架布局和布线指南的详细信息。