概述#

NVIDIA DGX SuperPOD™ 是一个多用户系统,旨在高效运行大型 AI 和 HPC 应用程序。虽然 DGX SuperPOD 由许多不同的组件组成,但应将其视为一个实体,可以管理多个用户的同时使用,为排队提供高级访问控制,并公平地调度资源以确保最佳性能。它还提供用户之间协作的工具以及保护数据和在必要时限制用户之间交互的安全控制。管理工具旨在将多个组件视为一个单一系统。有关物理架构的更多详细信息,请参阅 NVIDIA DGX SuperPOD 参考架构。

本文档讨论了 DGX SuperPOD 上支持的一系列特性和任务。与 DGX SuperPOD 解决方案相比,构成 DGX SuperPOD 的硬件和软件组件支持更广泛的功能集。如果需要澄清 DGX SuperPOD 产品支持哪些功能,请联系 NVIDIA 技术客户经理 (TAM)。

重要提示

NVIDIA DGX SuperPOD 仅支持 Slurm 和与 RunAI 结合使用的 Kubernetes。

系统设计#

DGX SuperPOD 的逻辑描述如图 图 1 所示。

图 1. DGX SuperPOD 逻辑设计

_images/overview-01.png

表 1 描述了 图 1 中显示的组件。

表 1. 组件描述

DGX SuperPOD 组件

描述

跳转箱/入口点

跳转箱/入口点是进入 DGX SuperPOD 的网关,旨在为集群提供单一入口点,并在需要时提供额外的安全性。它实际上不是 DGX SuperPOD 的一部分,而是企业 IT 环境的一部分。此功能由本地 IT 要求定义和提供。

计算节点

计算节点是用户工作在系统上完成的地方。每个计算节点都是一个独立的 DGX 服务器

管理节点

管理节点提供支持 DGX SuperPOD 运行和监控所需的服务。在需要时以高可用性 (HA) 模式配置的服务可提供最高的系统可用性。有关每个节点及其功能的详细信息,请参见表 2。

高速存储

高速存储为 DGX SuperPOD 中的所有节点提供共享存储。这是数据集、检查点和其他大型文件应存储的位置。高速存储通常保存 DGX SuperPOD 作业正在积极处理的大型数据集。高速存储上的数据是 DGX SuperPOD 外部数据湖中存储的所有数据的子集。

共享存储

网络文件系统 (NFS) 上的共享存储分配给用户主目录以及集群服务。

InfiniBand Fabric—计算

计算 InfiniBand Fabric 是连接所有计算节点的高速网络 Fabric,允许计算节点之间进行高带宽和低延迟通信。

InfiniBand Fabric—存储

存储 InfiniBand Fabric 是专用于存储流量的高速网络 Fabric。存储流量专用于其自身的 Fabric,以消除对节点到节点应用程序流量的干扰,否则可能会降低整体性能。

带内网络 Fabric

带内网络 Fabric 在 DGX SuperPOD 中的所有节点之间提供快速以太网连接。带内 Fabric 用于基于 TCP/IP 的通信和服务。

带外网络 Fabric

带外以太网网络用于使用 BMC 的系统管理,并提供连接以管理所有网络设备。

管理服务器#

表 2 详细说明了管理服务器上运行的功能和服务。

表 2. DGX SuperPOD 管理服务器

服务器功能

服务

头节点

头节点提供各种功能

  • 配置:集中存储和部署计算节点和其他各种服务的操作系统镜像。这确保了有一个单一的权威来源定义每个节点上应该有什么,以及在节点需要重新映像时重新配置的方法。

  • 工作负载管理:资源管理和编排服务,用于组织资源并协调用户作业在集群中的调度。

  • 指标:系统监控和报告,收集来自每个节点的所有遥测数据。可以通过 Web 服务探索和分析数据,以便更好地洞察系统并进行报告。

登录

用户访问 DGX SuperPOD 的入口点。仅 CPU 节点,是 Slurm 客户端,并挂载了文件系统以支持开发、作业提交、作业监控和文件管理。包含多个节点以实现冗余并支持用户工作负载。这些主机也可以用于容器缓存。

UFM 设备

NVIDIA 统一 Fabric 管理器 (UFM),用于存储和计算。