主要组件#
DGX SuperPOD 配置的主要组件列于 表 7 中。这些组件代表了配置,必须根据实际设计进行最终确定。
表 7. 4 SU、127 节点 DGX SuperPOD 的主要组件
数量 |
组件 |
推荐型号 |
---|---|---|
机架 |
||
38 |
机架 (Legrand) |
NVIDPD13 |
节点 |
||
127 |
GPU 节点 |
DGX H100 系统 |
4 |
UFM 设备 |
NVIDIA Unified Fabric Manager Appliance 3.1 |
5 |
管理服务器 |
基于英特尔 x86 的双路插槽,24 核或更多,384 GB RAM,OS (2x480GB M.2 或 SATA/SAS SSD,RAID 1),NVME 7.68 TB (原始容量),4 个 HDR200 VPI 端口,TPM 2.0 |
以太网网络 |
||
8 |
带内管理 |
NVIDIA SN4600C 交换机,搭载 Cumulus Linux |
8 |
带外管理 |
NVIDIA SN2201 交换机,搭载 Cumulus Linux |
计算 InfiniBand 结构 |
||
48 |
结构交换机 |
NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0 |
存储 InfiniBand 结构 |
||
16 |
结构交换机 |
NVIDIA Quantum QM9700 交换机,920-9B210-00FN-0M0 |
PDU |
||
96 |
机架 PDU |
Raritan PX3-5878I2R-P1Q2R1A15D5 |
12 |
机架 PDU |
Raritan PX3-5747V-V2 |
相关线缆和收发器列于 表 8 中。所有网络组件均为多模光纤。
表 8. 4 SU、127 节点 DGX SuperPOD 所需线缆的估算
数量 |
组件 |
连接 |
推荐模式¹ |
---|---|---|---|
带内以太网线缆 |
|||
254 |
100 Gbps |
DGX H100 系统 |
各异 |
32 |
100 Gbps QSFP 转 QSFP AOC |
管理节点 |
各异 |
6 |
100 Gbps |
ISL 线缆 |
各异 |
各异 |
以太网(性能各异) |
存储 |
各异 |
各异 |
各异 |
核心数据中心 |
各异 |
带外以太网线缆 |
|||
127 |
1 Gbps |
DGX H100 系统 |
Cat5e |
64 |
1 Gbps |
InfiniBand 交换机 |
Cat5e |
11 |
1 Gbps |
管理/UFM 节点 |
Cat5e |
8 |
1 Gbps |
带内以太网交换机 |
Cat5e |
各异 |
1 Gbps |
存储 |
Cat5e |
108 |
1 Gbps |
PDU |
Cat5e |
16 |
100 Gbps |
每个带外到带内两个上行链路 |
各异 |
计算 InfiniBand 布线 |
|||
2040 |
NDR 线缆¹,400 Gbps |
DGX H100 系统到叶交换机,叶交换机到脊交换机 |
980-9I57X-00N010 |
2 |
NDR 线缆,200 Gbps |
UFM 到叶端口 |
980-9I111-00H010 |
1536 |
交换机 OSFP 收发器 |
叶交换机和脊交换机收发器 |
980-9IA2O-00NS00 |
508 |
系统 OSFP 收发器 |
DGX H100 系统中的收发器 |
980-9I89P-00N000 |
4 |
UFM 系统收发器 |
UFM 到叶连接 |
980-9I89R-00NS00 |
存储 InfiniBand 线缆¹ ² |
|||
494 |
NDR 线缆,400 Gbps |
DGX H100 系统到叶交换机,叶交换机到脊交换机 |
980-9I57X-00N010 |
48² |
NDR 线缆,200 Gbps |
存储 |
980-9I111-00H010 |
4 |
UFM 系统收发器 |
UFM 到叶连接 |
980-9I51S-00NS00 |
369 |
交换机收发器 |
叶交换机和脊交换机收发器 |
980-9I510-00NS00 |
254 |
DGX 系统收发器 |
QSFP112 收发器 |
980-9I693-00NS00 |
2 |
NDR 线缆,200 Gbps |
UFM 到叶端口 |
980-9I557-00N030 |
4 |
HDR 400 Gbps 转 2x200 Gbps |
Slurm 管理 |
980-9I117-00H030 |
各异 |
存储线缆,NDR200 |
各异 |
980-9I117-00H030 |
¹. 部件号将取决于根据数据中心要求所需的精确线缆长度。². 所需的数量和线缆类型取决于选择的特定存储。 |