DGX SuperPOD 架构#

DGX SuperPOD 架构结合了 DGX 系统、InfiniBand 和以太网网络、管理节点和存储。图 2 显示了单个 SU 的机架布局。在本示例中,每个机架的功耗超过 25 千瓦。机架布局可以进行调整,以满足本地数据中心的要求,例如每个机架的最大功率以及 DGX 系统与配套设备之间的机架布局,从而满足本地对电力和散热分配的需求。

_images/image4.png

图 2. 完整的单个 SU 机架布局#

图 3 显示了一个示例管理机架配置,其中包含网络交换机、管理服务器、存储阵列和 UFM 设备。尺寸和数量将根据所用型号而异。

_images/image5.png

图 3. 管理机架配置#

此参考架构侧重于 4 个 SU 单元,包含 128 个 DGX 节点。DGX SuperPOD 可以扩展到更大的配置,最多可扩展到 64 个 SU 单元及以上,包含 2000 多个 DGX H200 节点。有关更多信息,请参见表 3。

表 3. 更大型 SuperPOD 组件计数

SU 计数

节点计数

GPU 计数

InfiniBand 交换机计数

电缆计数

叶 (Leaf)

脊 (Spine)

核心 (Core)

节点-叶 (Node-Leaf)

叶-脊 (Leaf-Spine)

脊-核心 (Spine-Core)

4

128

1024

32

16

1024

1024

8

256

2048

64

32

2048

2048

16

512

4096

128

128

64

4096

4096

4096

32

1024

8192

256

256

128

8192

8192

8192

64

2048

16384

512

512

256

16384

16384

16384

如需了解有关四个可扩展单元以上 DGX SuperPOD 解决方案的更多信息,请联系 NVIDIA。