NVIDIA DGX SuperPOD 概述#

NVIDIA DGX SuperPOD™ 是一个多用户系统,旨在高效运行大型人工智能 (AI) 和高性能计算 (HPC) 应用程序。虽然该系统由许多不同的组件组成,但应将其视为一个可以管理多个用户同时使用,并为资源排队和调度提供高级访问控制的单一系统。这确保了最佳性能,为用户之间的协作提供了工具,并提供了必要的安全控制以保护数据和限制用户交互。

本文档不涵盖关于 DGX SuperPOD 的特定于本地策略或通用 Unix/Linux 主题的信息,例如访问、排队、配额、编译以及编辑和操作文件和数据。

逻辑系统图#

图 1 提供了 DGX SuperPOD 及其所有使其能够作为单一多用户系统工作的组件的逻辑描述。

图 1. DGX SuperPOD 的逻辑描述

_images/overview-01.png

图 1 中的框和连接表示这些组件不是用户体验的一部分。任何虚线表示两个资源之间存在某种连接,但并非所有子组件都已连接。可选的跳转盒是 DGX SuperPOD 之外的可选组件,可实现对其的远程访问。

图 1 中的组件在 表 1 中进一步描述。

表 1. DGX SuperPOD 组件

组件

描述

跳转盒/入口点

跳转盒/入口点是进入 DGX SuperPOD 的网关,旨在为集群提供单一入口点,并在需要时提供额外的安全性。它实际上不是 DGX SuperPOD 的一部分,而是企业 IT 环境的一部分。此功能由本地 IT 要求定义。

管理节点

管理节点是用户进入 DGX SuperPOD 的入口点。登录节点是一个仅 CPU 的节点,用于轻量级任务,用户可以在其中开发代码、提交和监控作业以及管理数据。

计算节点

计算节点是用户工作在系统上完成的地方。每个计算节点都是一个独立的服务器,但借助高速互连,应用程序可以有效地分布在多个节点上。

高速存储

高速存储针对大型数据文件的高效读取和写入进行了优化。高速存储通常被视为暂存空间,因为它很难或不可能备份系统上存储的所有数据。这是应该存储数据集、检查点和其他大型文件的地方。

主目录文件系统

主目录文件系统是一个传统的、高度可靠的网络文件系统,它以性能换取稳定性和企业管理功能。分配的空间通常小于高速存储上可用的空间。用户应存储脚本、代码、Dockerfile 以及其他小型且重要的文件。

计算互连

计算互连是连接所有计算节点的高速网络互连,可在计算节点之间实现高带宽和低延迟通信。

存储互连

存储互连是专用于存储流量的高速网络互连。存储流量专用于其自身的互连,以消除对可能降低整体性能的节点到节点应用程序流量的干扰。

带内管理网络

带内网络互连在 DGX SuperPOD 中的所有节点之间提供快速以太网连接。虽然其使用对用户应该是透明的,但它承载着节点管理和主目录文件系统访问的重要流量。