DGX SuperPOD 架构#

DGX SuperPOD 架构结合了 DGX 系统、InfiniBand 和以太网网络、管理节点和存储。图 2 显示了单个 SU 的机架布局。 在此示例中,每个机架的功耗超过 40 千瓦。 机架布局可以调整以满足本地数据中心的要求,例如每个机架的最大功率以及 DGX 系统和配套设备之间的机架布局,以满足本地电力和散热分配的需求。

图 2. 完整的单个 SU 机架布局

_images/superpod-h100-arch-01.png

图 3 显示了一个示例管理机架配置,其中包含网络交换机、管理服务器、存储阵列和 UFM 设备。 尺寸和数量将因所用型号而异。

图 3. 管理机架配置

_images/superpod-h100-arch-02.png

此参考架构侧重于 4 个 SU 单元,包含 128 个 DGX 节点。 DGX SuperPOD 可以扩展到更大的配置,最多可扩展到 64 个 SU 单元和 2000 多个 DGX H100 节点,甚至更多。 有关更多信息,请参见 表 3

表 3. 更大的 SuperPOD 组件计数

SU 计数

节点计数

GPU 计数

InfiniBand 交换机计数

电缆计数

叶节点

Spine 节点

Core 节点

节点-叶节点

叶节点-Spine 节点

Spine 节点-Core 节点

4

128

1024

32

16

1024

1024

1024

8

256

2048

64

32

2048

2048

2048

16

512

4096

128

128

64

4096

4096

4096

32

1024

8192

256

256

128

8192

8192

8192

56

2048

16384

512

512

256

16384

16384

16384

如需了解有关四个可扩展单元以上 DGX SuperPOD 解决方案的更多信息,请联系 NVIDIA。