参考架构#

DGX BasePOD 是一种灵活的解决方案,提供多种规范性架构。这些架构具有适应性,可支持不断发展的人工智能工作负载需求。

采用 NDR400 计算 Fabric 的 DGX BasePOD#

DGX BasePOD 是一种灵活的解决方案,提供多种规范性架构。这些架构具有适应性,可支持不断发展的人工智能工作负载需求。

表 1 描述了 DGX BasePOD 的组件。

表 1. DGX BasePOD 组件#

组件

技术

计算节点 (2-8)

NVIDIA DGX B200 系统,配备八个 180 GB B200 GPU、NDR400 InfiniBand 网络和两个 NVIDIA BlueField-3 DPU

NVIDIA DGX H100 系统,配备八个 80 GB H100 GPU、NDR400 InfiniBand 网络和两个 NVIDIA ConnectX-7 NIC

NVIDIA DGX H200 系统,配备八个 141 GB H100 GPU、NDR400 InfiniBand 网络和两个 NVIDIA ConnectX-7 NIC

计算 fabric

NVIDIA Quantum QM9700 NDR400 Gbps InfiniBand 交换机

管理和存储 fabric

NVIDIA SN4600C 交换机

OOB 管理 fabric

NVIDIA SN2201 交换机

控制平面

请参阅控制平面

系统架构#

图 13 描述了 DGX BasePOD 的架构,最多可支持八个采用 NDR InfiniBand 的 DGX 节点。采用 DGX B200 和 H200 以及 H100 系统的 BasePOD 使用来自每个节点的八个 NDR400 计算连接。完整的架构具有三个网络:基于 InfiniBand 的计算网络、用于系统管理和存储的以太网 fabric 以及 OOB 管理网络。

_images/image16.png

图 13. DGX BasePOD,最多支持八个采用 NDR400 的系统#

参考架构中包含五个双路 x86 服务器,用于系统管理。两个节点用作 Base Command Manager 的头节点。另外三个节点提供平台,用于容纳部署的特定服务。这可以是基于 Slurm 部署的登录节点,或用于基于 MLOps 的合作伙伴解决方案的 Kubernetes。可以使用任何符合表 5 中描述的每个节点最低要求的 OEM 服务器。所有管理服务器都配置为高可用性 (HA) 对(或三元组),单个节点的故障不会导致 BasePOD 服务中断。

交换机和线缆#

表 2 显示了 DGX BasePOD 的各种部署所需的线缆和交换机数量。这些设计采用有源光缆或直接连接铜缆构建。或者,DGX BasePOD 可以使用收发器和光纤线缆进行部署。

表 2. 交换机和线缆#

组件

部件号 [1]

DGX 数量

4

8

NVIDIA Quantum QM9700 交换机

920-9B210-00FN-0M0

2

2

NDR 光纤线缆,400 Gbps,DGX 到 IB 交换机

980-9I570-00N030

16

32

系统 2x400G OSFP 平顶多模收发器(DGX 系统上)

980-9I51A-00NS00

16

32

交换机 2x400G OSFP 鳍顶多模收发器

980-9I510-00NS00

8

16

用于交换机 ISL 的 NDR InfiniBand DAC

980-9IA0J-00N002

16

32

NVIDIA SN2201 交换机,配备 Cumulus Linux、48 个 RJ45 端口、P2C

920-9N110-00F1-0C0

1

2

NVIDIA SN4600C 交换机,配备 Cumulus Linux、64 个 QSFP28 端口、P2C

920-9N302-00F7-0C2

2

2

1 GbE Cat 6 线缆

不适用

29

45

NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,30m,DGX 到 Inband

980-9I13N-00C030

8

16

用于 Inband 交换机 ISL 的 100 Gbps QSFP 无源线缆

980-9I54C-00V001

2

2

NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,10m,OOB 到 Inband

980-9I13N-00C010

2

4

BCM 管理服务器

各不相同

5

5

NVIDIA 有源光纤线缆,ETH 100GbE,100Gb/s,QSFP,LSZH,10m,管理服务器到 Inband

980-9I13N-00C010

10

10

脚注