主要组件#

DGX SuperPOD 配置的主要组件列于表 7中。这些组件是配置的代表,必须根据实际设计进行最终确定。

表 7 4 SU,127 节点 DGX SuperPOD 的主要组件#

数量

组件

推荐型号

机架

70

机架 (Legrand)

NVIDPD13

节点

127

DGX 节点

NVIDIA DGX 系统

4

UFM 设备

NVIDIA Unified Fabric Manager 设备

7

管理服务器

基于英特尔 x86 的双路插槽,24 核或更多,384 GB RAM,操作系统(RAID 1 中的 2 个 480GB M.2 或 SATA/SAS SSD),NVME 7.68 TB(原始容量),4 个 NDR VPI 端口,TPM

管理网络

4

带内管理

基于 NVIDIA SN5600 Spectrum-4 的 800GbE 2U 开放式以太网交换机,带 Cumulus Linux 身份验证,64 个 OSFP 端口和 1 个 SFP28 端口,2 个电源(AC),x86 CPU,安全启动,标准深度,C2P 气流,免工具导轨套件,920-9N42F-00RI-7C0

2

带内管理

NVIDIA SN2201 交换机,带 Cumulus Linux,48 个 RJ45 端口,P2C,920-9N110-00F1-0C0

17

带外管理

NVIDIA SN2201 交换机,带 Cumulus Linux,48 个 RJ45 端口,P2C,920-9N110-00F1-0C0

计算结构

48

结构交换机

NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0

存储结构

16

结构交换机

NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0

PDU

192

机架 PDU

Raritan PX3-5878I2R-P1Q2R1A15D5

12

机架 PDU

Raritan PX3-5747V-V2

相关线缆和收发器列于表 8中。所有网络组件均为多模光纤。

表 8 4 SU,127 节点 DGX SuperPOD 所需线缆估算#

数量

组件

连接

推荐型号

带内以太网线缆

68

以太网 800Gb/s(2x400Gb/s 双端口 OSFP,DR8 多模,并行,8 通道收发器

叶和脊收发器

980-9I510-F4NS00

2

DR1 分支线缆 1x 400Gb/s 到 4x 100Gb/s

脊到 SN2201 叶到 NFS

现成产品,POT EFALU-PA2S1Q-005M 或类似产品

4

100gb/s 单模单通道 (DR1), QSFP28 光收发器

脊到叶上的 SN2201 收发器

980-9I042-00C000

4

2x400GbE 双端口 OSFP 100 米单模以太网收发器

脊到脊上的 SN2201 NFS 连接到 5600

980-9I30H-F4NM00

254

DGX 系统 400G QSFP112 多模收发器

DGX 系统上的 QSFP112 收发器

980-9I693-00NS00

134

MMF MPO12 APC 到 2xMPO12 APC 10 米

DGX 系统,管理节点到叶

980-9I570-00N030

14

以太网 (ETH) 400Gb/s,单端口,OSFP,多模并行收发器

SLURM 和管理节点上的 OSFP 收发器

980-9I51S-F4NS00

可变

可变

客户 NFS 存储

可变

8

NVIDIA 无源铜缆,IB 双端口 NDR,高达 800Gb/s,OSFP,1.5 米

叶 - 脊层

980-9IA0Q-00N01A

4

Cat5e 用于 UFM 到带内

UFM 到带内

Cat5e

带外以太网线缆

381

1 Gbps

DGX 系统

Cat5e

64

1 Gbps

InfiniBand 交换机

Cat5e

11

1 Gbps

管理/UFM 节点

Cat5e

6

1 Gbps

带内以太网交换机

Cat5e

2

1 Gbps

UFM 背靠背

Cat5e

204

1 Gbps

PDU

Cat5e

34

100gb/s 单模单通道 (DR1), QSFP28 光收发器

脊到带外 SN2201

980-9I042-00C000

10

2x400GbE 双端口 OSFP 100 米单模以太网收发器

脊到脊上的 SN2201

980-9I30H-F4NM00

20

DR1 分支线缆 1x 400Gb/s 到 4x 100Gb/s

脊到 SN2201 叶

现成产品,POT EFALU-PA2S1Q-005M 或类似产品

可变

1 Gbps

存储

Cat5e

计算 InfiniBand 布线

2044

NDR 光纤线缆¹,400 Gbps

DGX 系统到叶,叶到脊,UFM 到叶端口

980-9I570-00N030

1536

交换机 2x400G OSFP 鳍片顶部多模收发器

叶和脊收发器

980-9I510-00NS00

508

系统 2x400G OSFP 平顶多模收发器

DGX B200 系统中的收发器

980-9I51A-00NS00

4

UFM 系统 400G OSFP 多模收发器

UFM 到叶连接

980-9I51S-00NS00

InfiniBand 存储线缆¹ ²

498

NDR 光纤线缆,400 Gbps

DGX 系统到叶,叶到脊,UFM 到叶连接

980-9I570-00N030

48

NDR AOC 线缆,2x 200 Gbps QSFP56-QSFP56

存储

980-9I117-00H030

4

UFM 系统 400G OSFP 多模收发器

UFM 到叶连接

980-9I51S-00NS00

369

交换机 2x400G OSFP 鳍片顶部多模收发器

叶和脊收发器

980-9I510-00NS00

254

DGX 系统 400G QSFP112 多模收发器

QSFP112 收发器

980-9I693-00NS00

4

HDR 400 Gbps 到 2x200 Gbps AOC 线缆

Slurm 管理

980-9I117-00H030

可变

存储线缆,400 Gbps 到 2x200 Gbps AOC 线缆

可变

980-9I117-00H030

以太网存储线缆¹ ²

514

MMF MPO12 APC 到 2xMPO12 APC 10 米

DGX 系统到叶,叶到脊,到 SLURM 节点

980-9I570-00N030

386

2x400GbE 双端口 OSFP 50 米多模以太网收发器

叶和脊收发器

980-9I510-F4NS00

8

400Gbs 单端口 OSFP,400Gbs 多模 SR4 50 米

SLURM 管理节点上的 OSFP 收发器

980-9I51S-00NS00

254

400GbE 单端口,QSFP112 50 米多模以太网收发器

DGX 系统上的 QSFP112 收发器

980-9I693-F4NS00

可变

100gb/s 单模单通道 (DR1), QSFP28 光收发器

用于存储的叶收发器

980-9I042-00C000

可变

800gb/s 到 4x 100Gb/s 分支线缆

叶到存储线缆

可变

¹ 零件编号将取决于根据数据中心要求所需的精确线缆长度。

² 所需的数量和线缆类型取决于所选的特定存储。