DGX SuperPOD 架构#

DGX SuperPOD 架构是 DGX 系统、InfiniBand 和以太网网络、管理节点和存储的组合。 图 2 显示了单个 SU 的机架布局。 在此示例中,每个机架的功耗超过 25 千瓦。 可以调整机架布局以满足本地数据中心的要求,例如每个机架的最大功率以及 DGX 系统与配套设备之间的机架布局,以满足本地对电力和冷却分配的需求。

_images/image5.png

图 2 完整的单个 SU 机架布局#

图 3 显示了一个管理机架配置示例,其中包含网络交换机、管理服务器、存储阵列和 UFM 设备。 尺寸和数量将因所用型号而异。

_images/image6.png

图 3 管理机架配置#

此参考架构侧重于具有 128 个 DGX 节点的 4 个 SU 单元。 DGX SuperPOD 可以扩展到更大的配置,最多可扩展到 64 个 SU 和 2000 多个 DGX B200 节点及以上。 有关更多信息,请参见 :numref:。

表 3 更大的 DGX SuperPOD 组件数量#

SU 数量

节点数量

GPU 数量

InfiniBand 交换机数量

电缆数量

核心

节点 - 叶

叶 - 脊

脊 - 核心

2

64

512

16

8

512

512

4

128

1024

32

16

1024

1024

8

256

2048

64

32

2048

2048

16

512

4096

128

128

64

4096

4096

4096

32

1024

8192

256

256

128

8192

8192

8192

64

2048

16384

512

512

256

16384

16384

16384

有关四个或更多可扩展单元的 DGX SuperPOD 解决方案的信息,请联系 NVIDIA。