NVIDIA DGX SuperPOD 概述#

NVIDIA DGX SuperPOD™ 是一个多用户系统，旨在高效运行大型人工智能 (AI) 和高性能计算 (HPC) 应用程序。虽然该系统由许多不同的组件组成，但应将其视为一个可以管理多个用户同时使用，并为资源排队和调度提供高级访问控制的单一系统。这确保了最佳性能，为用户之间的协作提供了工具，并提供了必要的安全控制以保护数据和限制用户交互。

本文档不涵盖关于 DGX SuperPOD 的特定于本地策略或通用 Unix/Linux 主题的信息，例如访问、排队、配额、编译以及编辑和操作文件和数据。

逻辑系统图#

图 1 提供了 DGX SuperPOD 及其所有使其能够作为单一多用户系统工作的组件的逻辑描述。

图 1. DGX SuperPOD 的逻辑描述

图 1 中的框和连接表示这些组件不是用户体验的一部分。任何虚线表示两个资源之间存在某种连接，但并非所有子组件都已连接。可选的跳转盒是 DGX SuperPOD 之外的可选组件，可实现对其的远程访问。

图 1 中的组件在表 1 中进一步描述。

表 1. DGX SuperPOD 组件

组件	描述
跳转盒/入口点	跳转盒/入口点是进入 DGX SuperPOD 的网关，旨在为集群提供单一入口点，并在需要时提供额外的安全性。它实际上不是 DGX SuperPOD 的一部分，而是企业 IT 环境的一部分。此功能由本地 IT 要求定义。
管理节点	管理节点是用户进入 DGX SuperPOD 的入口点。登录节点是一个仅 CPU 的节点，用于轻量级任务，用户可以在其中开发代码、提交和监控作业以及管理数据。
计算节点	计算节点是用户工作在系统上完成的地方。每个计算节点都是一个独立的服务器，但借助高速互连，应用程序可以有效地分布在多个节点上。
高速存储	高速存储针对大型数据文件的高效读取和写入进行了优化。高速存储通常被视为暂存空间，因为它很难或不可能备份系统上存储的所有数据。这是应该存储数据集、检查点和其他大型文件的地方。
主目录文件系统	主目录文件系统是一个传统的、高度可靠的网络文件系统，它以性能换取稳定性和企业管理功能。分配的空间通常小于高速存储上可用的空间。用户应存储脚本、代码、Dockerfile 以及其他小型且重要的文件。
计算互连	计算互连是连接所有计算节点的高速网络互连，可在计算节点之间实现高带宽和低延迟通信。
存储互连	存储互连是专用于存储流量的高速网络互连。存储流量专用于其自身的互连，以消除对可能降低整体性能的节点到节点应用程序流量的干扰。
带内管理网络	带内网络互连在 DGX SuperPOD 中的所有节点之间提供快速以太网连接。虽然其使用对用户应该是透明的，但它承载着节点管理和主目录文件系统访问的重要流量。

导航 DGX SuperPOD#

当用户首次登录 DGX SuperPOD 时，它看起来会像任何其他 Linux 系统。他们将被放入其主目录，并且标准 Linux 命令将起作用。

例如

# pwd
/home/dgxuser
# ls -al
./bashrc

此外，高速文件系统将在登录节点和所有计算节点上可用

# ls /lustre/fs1/
projects

DGX SuperPOD 是节点的集合，访问通过工作负载管理系统进行管理。默认的工作负载管理系统是 Slurm。Slurm 支持提交和管理作业。有关更多详细信息，请参阅工作负载管理。

注意

关于访问 DGX SuperPOD 的描述是使用命令行与系统交互的默认方式。本地部署可能会提供其他用户界面来与系统交互。此外，本文档中的示例对系统名称和目录使用了标准命名约定，但对于给定的环境可能会更改。