主要组件#

DGX SuperPOD 配置的主要组件列于 表 7 中。这些组件代表了配置,必须根据实际设计进行最终确定。

表 7. 4 SU、127 节点 DGX SuperPOD 的主要组件

数量

组件

推荐型号

机架

38

机架 (Legrand)

NVIDPD13

节点

127

GPU 节点

DGX H100 系统

4

UFM 设备

NVIDIA Unified Fabric Manager Appliance 3.1

5

管理服务器

基于英特尔 x86 的双路插槽,24 核或更多,384 GB RAM,OS (2x480GB M.2 或 SATA/SAS SSD,RAID 1),NVME 7.68 TB (原始容量),4 个 HDR200 VPI 端口,TPM 2.0

以太网网络

8

带内管理

NVIDIA SN4600C 交换机,搭载 Cumulus Linux

8

带外管理

NVIDIA SN2201 交换机,搭载 Cumulus Linux

计算 InfiniBand 结构

48

结构交换机

NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0

存储 InfiniBand 结构

16

结构交换机

NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0

PDU

96

机架 PDU

Raritan PX3-5878I2R-P1Q2R1A15D5

12

机架 PDU

Raritan PX3-5747V-V2

相关线缆和收发器列于 表 8 中。所有网络组件均为多模光纤。

表 8. 4 SU、127 节点 DGX SuperPOD 所需线缆的估算

数量

组件

连接

推荐模式¹

带内以太网线缆

254

100 Gbps

DGX H100 系统

各异

32

100 Gbps QSFP 转 QSFP AOC

管理节点

各异

6

100 Gbps

ISL 线缆

各异

各异

以太网(性能各异)

存储

各异

各异

各异

核心数据中心

各异

带外以太网线缆

127

1 Gbps

DGX H100 系统

Cat5e

64

1 Gbps

InfiniBand 交换机

Cat5e

11

1 Gbps

管理/UFM 节点

Cat5e

8

1 Gbps

带内以太网交换机

Cat5e

各异

1 Gbps

存储

Cat5e

108

1 Gbps

PDU

Cat5e

16

100 Gbps

每个带外到带内两个上行链路

各异

计算 InfiniBand 布线

2040

NDR 线缆¹,400 Gbps

DGX H100 系统到叶交换机,叶交换机到脊交换机

980-9I57X-00N010

2

NDR 线缆,200 Gbps

UFM 到叶端口

980-9I111-00H010

1536

交换机 OSFP 收发器

叶交换机和脊交换机收发器

980-9IA2O-00NS00

508

系统 OSFP 收发器

DGX H100 系统中的收发器

980-9I89P-00N000

4

UFM 系统收发器

UFM 到叶连接

980-9I89R-00NS00

存储 InfiniBand 线缆¹ ²

494

NDR 线缆,400 Gbps

DGX H100 系统到叶交换机,叶交换机到脊交换机

980-9I57X-00N010

48²

NDR 线缆,200 Gbps

存储

980-9I111-00H010

4

UFM 系统收发器

UFM 到叶连接

980-9I51S-00NS00

369

交换机收发器

叶交换机和脊交换机收发器

980-9I510-00NS00

254

DGX 系统收发器

QSFP112 收发器

980-9I693-00NS00

2

NDR 线缆,200 Gbps

UFM 到叶端口

980-9I557-00N030

4

HDR 400 Gbps 转 2x200 Gbps

Slurm 管理

980-9I117-00H030

各异

存储线缆,NDR200

各异

980-9I117-00H030

¹. 部件号将取决于根据数据中心要求所需的精确线缆长度。². 所需的数量和线缆类型取决于选择的特定存储。