DGX SuperPOD 架构#
DGX SuperPOD 架构结合了 DGX 系统、InfiniBand 和以太网网络、管理节点和存储。图 2 显示了单个 SU 的机架布局。 在此示例中,每个机架的功耗超过 40 千瓦。 机架布局可以调整以满足本地数据中心的要求,例如每个机架的最大功率以及 DGX 系统和配套设备之间的机架布局,以满足本地电力和散热分配的需求。
图 2. 完整的单个 SU 机架布局
图 3 显示了一个示例管理机架配置,其中包含网络交换机、管理服务器、存储阵列和 UFM 设备。 尺寸和数量将因所用型号而异。
图 3. 管理机架配置
此参考架构侧重于 4 个 SU 单元,包含 128 个 DGX 节点。 DGX SuperPOD 可以扩展到更大的配置,最多可扩展到 64 个 SU 单元和 2000 多个 DGX H100 节点,甚至更多。 有关更多信息,请参见 表 3。
表 3. 更大的 SuperPOD 组件计数
SU 计数 |
节点计数 |
GPU 计数 |
InfiniBand 交换机计数 |
电缆计数 |
||||
---|---|---|---|---|---|---|---|---|
叶节点 |
Spine 节点 |
Core 节点 |
节点-叶节点 |
叶节点-Spine 节点 |
Spine 节点-Core 节点 |
|||
4 |
128 |
1024 |
32 |
16 |
– |
1024 |
1024 |
1024 |
8 |
256 |
2048 |
64 |
32 |
– |
2048 |
2048 |
2048 |
16 |
512 |
4096 |
128 |
128 |
64 |
4096 |
4096 |
4096 |
32 |
1024 |
8192 |
256 |
256 |
128 |
8192 |
8192 |
8192 |
56 |
2048 |
16384 |
512 |
512 |
256 |
16384 |
16384 |
16384 |
如需了解有关四个可扩展单元以上 DGX SuperPOD 解决方案的更多信息,请联系 NVIDIA。