摘要#

采用 NVIDIA DGX™ H200 系统的 NVIDIA DGX SuperPOD™ 是用于人工智能 (AI) 的下一代数据中心架构。它旨在提供解决 AI、高性能计算 (HPC) 和混合应用中高级计算挑战所需的计算性能水平,在混合应用中,两者结合使用可提高预测性能和缩短解决问题的时间。DGX SuperPOD 基于 NVIDIA 为内部研究目的而构建的基础设施,旨在解决当今最具挑战性的计算问题。基于 DGX SuperPOD 架构的系统已在全球客户数据中心和云服务提供商处部署。

为了实现最佳可扩展性,DGX SuperPOD 由多项关键 NVIDIA 技术提供支持,包括

  • NVIDIA DGX H200 系统—为 AI 和 HPC 提供最强大的计算构建块。

  • NVIDIA NDR (400 Gbps) InfiniBand—带来最高性能、最低延迟和最具可扩展性的网络互连。

  • NVIDIA NVLink® 技术—在 NVLink 层连接 GPU 的网络技术,为最苛刻的通信模式提供前所未有的性能。

_images/image2.png

DGX SuperPOD 架构集成了 NVIDIA 软件解决方案,包括 NVIDIA Base Command™、NVIDIA AI Enterprise、CUDA 和 NVIDIA Magnum IO™。这些技术有助于使系统在最高级别的可用性和性能下运行,并通过 NVIDIA 企业支持 (NVEX),保持所有组件和应用程序平稳运行。

本参考架构 (RA) 讨论了定义 DGX SuperPOD 可扩展和模块化架构的组件。该系统基于可扩展单元 (SU) 的概念构建,每个单元包含 32 个 DGX H200 系统,从而可以快速部署多种规模的系统。本 RA 包括有关 SU 设计以及 InfiniBand、NVLink 网络、以太网结构拓扑、存储系统规范、推荐机架布局和布线指南的详细信息。