DGX SuperPOD 架构#
DGX SuperPOD 架构是 DGX 系统、InfiniBand 和以太网网络、管理节点和存储的组合。 图 2 显示了单个 SU 的机架布局。 在此示例中,每个机架的功耗超过 25 千瓦。 可以调整机架布局以满足本地数据中心的要求,例如每个机架的最大功率以及 DGX 系统与配套设备之间的机架布局,以满足本地对电力和冷却分配的需求。

图 2 完整的单个 SU 机架布局#
图 3 显示了一个管理机架配置示例,其中包含网络交换机、管理服务器、存储阵列和 UFM 设备。 尺寸和数量将因所用型号而异。

图 3 管理机架配置#
此参考架构侧重于具有 128 个 DGX 节点的 4 个 SU 单元。 DGX SuperPOD 可以扩展到更大的配置,最多可扩展到 64 个 SU 和 2000 多个 DGX B200 节点及以上。 有关更多信息,请参见 :numref:。
SU 数量 |
节点数量 |
GPU 数量 |
InfiniBand 交换机数量 |
电缆数量 |
||||
---|---|---|---|---|---|---|---|---|
叶 |
脊 |
核心 |
节点 - 叶 |
叶 - 脊 |
脊 - 核心 |
|||
2 |
64 |
512 |
16 |
8 |
– |
512 |
512 |
– |
4 |
128 |
1024 |
32 |
16 |
– |
1024 |
1024 |
– |
8 |
256 |
2048 |
64 |
32 |
– |
2048 |
2048 |
– |
16 |
512 |
4096 |
128 |
128 |
64 |
4096 |
4096 |
4096 |
32 |
1024 |
8192 |
256 |
256 |
128 |
8192 |
8192 |
8192 |
64 |
2048 |
16384 |
512 |
512 |
256 |
16384 |
16384 |
16384 |
有关四个或更多可扩展单元的 DGX SuperPOD 解决方案的信息,请联系 NVIDIA。