参考架构#
DGX BasePOD 是一种灵活的解决方案,提供多种规范性架构。这些架构具有适应性,可支持不断发展的人工智能工作负载需求。
采用 NDR400 计算 Fabric 的 DGX BasePOD#
DGX BasePOD 是一种灵活的解决方案,提供多种规范性架构。这些架构具有适应性,可支持不断发展的人工智能工作负载需求。
表 1 描述了 DGX BasePOD 的组件。
组件 |
技术 |
---|---|
计算节点 (2-8) |
NVIDIA DGX B200 系统,配备八个 180 GB B200 GPU、NDR400 InfiniBand 网络和两个 NVIDIA BlueField-3 DPU 或 NVIDIA DGX H100 系统,配备八个 80 GB H100 GPU、NDR400 InfiniBand 网络和两个 NVIDIA ConnectX-7 NIC 或 NVIDIA DGX H200 系统,配备八个 141 GB H100 GPU、NDR400 InfiniBand 网络和两个 NVIDIA ConnectX-7 NIC |
计算 fabric |
NVIDIA Quantum QM9700 NDR400 Gbps InfiniBand 交换机 |
管理和存储 fabric |
NVIDIA SN4600C 交换机 |
OOB 管理 fabric |
NVIDIA SN2201 交换机 |
控制平面 |
请参阅控制平面 |
系统架构#
图 13 描述了 DGX BasePOD 的架构,最多可支持八个采用 NDR InfiniBand 的 DGX 节点。采用 DGX B200 和 H200 以及 H100 系统的 BasePOD 使用来自每个节点的八个 NDR400 计算连接。完整的架构具有三个网络:基于 InfiniBand 的计算网络、用于系统管理和存储的以太网 fabric 以及 OOB 管理网络。

图 13. DGX BasePOD,最多支持八个采用 NDR400 的系统#
参考架构中包含五个双路 x86 服务器,用于系统管理。两个节点用作 Base Command Manager 的头节点。另外三个节点提供平台,用于容纳部署的特定服务。这可以是基于 Slurm 部署的登录节点,或用于基于 MLOps 的合作伙伴解决方案的 Kubernetes。可以使用任何符合表 5 中描述的每个节点最低要求的 OEM 服务器。所有管理服务器都配置为高可用性 (HA) 对(或三元组),单个节点的故障不会导致 BasePOD 服务中断。
交换机和线缆#
表 2 显示了 DGX BasePOD 的各种部署所需的线缆和交换机数量。这些设计采用有源光缆或直接连接铜缆构建。或者,DGX BasePOD 可以使用收发器和光纤线缆进行部署。
组件 |
部件号 [1] |
DGX 数量 |
|
---|---|---|---|
4 |
8 |
||
NVIDIA Quantum QM9700 交换机 |
920-9B210-00FN-0M0 |
2 |
2 |
NDR 光纤线缆,400 Gbps,DGX 到 IB 交换机 |
980-9I570-00N030 |
16 |
32 |
系统 2x400G OSFP 平顶多模收发器(DGX 系统上) |
980-9I51A-00NS00 |
16 |
32 |
交换机 2x400G OSFP 鳍顶多模收发器 |
980-9I510-00NS00 |
8 |
16 |
用于交换机 ISL 的 NDR InfiniBand DAC |
980-9IA0J-00N002 |
16 |
32 |
NVIDIA SN2201 交换机,配备 Cumulus Linux、48 个 RJ45 端口、P2C |
920-9N110-00F1-0C0 |
1 |
2 |
NVIDIA SN4600C 交换机,配备 Cumulus Linux、64 个 QSFP28 端口、P2C |
920-9N302-00F7-0C2 |
2 |
2 |
1 GbE Cat 6 线缆 |
不适用 |
29 |
45 |
NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,30m,DGX 到 Inband |
980-9I13N-00C030 |
8 |
16 |
用于 Inband 交换机 ISL 的 100 Gbps QSFP 无源线缆 |
980-9I54C-00V001 |
2 |
2 |
NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,10m,OOB 到 Inband |
980-9I13N-00C010 |
2 |
4 |
BCM 管理服务器 |
各不相同 |
5 |
5 |
NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,10m,管理服务器到 Inband |
980-9I13N-00C010 |
10 |
10 |
脚注