简介#
DGX™ OS 提供了 Ubuntu Linux 的自定义安装,其中包含特定于系统的优化和配置、附加驱动程序以及诊断和监控工具。它提供了一个稳定、经过全面测试和支持的操作系统,用于在 DGX 超级计算机上运行 AI、机器学习和分析应用程序。
NVIDIA® DGX 系统在出厂时预装了 DGX OS,以提供用于运行 AI 和分析工作负载的交钥匙解决方案。基本系统配置被推迟到首次启动时的设置向导。这为用户提供了使用 DGX 系统的快速入门体验。
DGX OS 安装程序以 ISO 映像的形式发布,用于重置 DGX 系统映像。DGX OS 中包含的附加软件 NVIDIA DGX 软件堆栈作为软件包提供,这些软件包可从互联网上的软件存储库获得。
您还可以选择在常规 Ubuntu 20.04 上安装 NVIDIA DGX 软件堆栈,同时仍然受益于高级 DGX 功能。此安装方法支持更高的灵活性,例如自定义分区方案。集群部署也受益于此安装方法,因为它利用了 Ubuntu 标准化的自动化和非交互式安装过程。
DGX OS 5 功能#
以下是 DGX OS Release 5 的主要功能
基于 Ubuntu 20.04 LTS
包括来自 Ubuntu 的扩展安全维护更新
所有 DGX 系统的通用 ISO
手动安装 Ubuntu 和 DGX 软件堆栈的选项
DGX 系统特定的性能优化
NVIDIA 系统管理 (NVSM) NVSM 为数据中心内的 NVIDIA DGX 节点提供主动健康状况监控和系统警报。它还提供了简单的命令来从命令行检查 DGX 系统的健康状况
数据中心 GPU 管理 (DCGM) 此软件支持对 GPU 进行节点范围的管理,并可用于集群和数据中心级别的管理
NVIDIA GPU 驱动程序、CUDA 工具包和特定于域的库
Docker Engine
NVIDIA 容器工具包
用于缓存 NFS 读取的 Cachefiles 守护程序
在 RAID 级别之间转换数据磁盘的工具
磁盘驱动器加密和根文件系统加密(可选)
适用于 Linux 的 Mellanox OpenFabrics 企业版发行版 (MOFED) 和适用于具有 Mellanox 网卡的系统的 Mellanox 软件工具 (MST)
概述#
本文档涵盖了 DGX OS 的部署和升级选项。它还提供了有关设置系统和安装附加软件的说明。
-
如果您的系统已在运行 DGX OS 6,您可以跳至 初始设置,以获取有关如何在首次启动时设置系统的说明。请务必查看 升级,以获取有关将软件升级到最新版本的信息。
-
要将您的 DGX OS 升级到最新的软件版本,或获取有关执行从 DGX OS 5 到 DGX OS 6 的版本升级的说明,您可以在 升级 中找到更多详细信息和说明。
-
在您想要将 DGX 系统恢复为默认 DGX OS 安装并擦除所有数据的情况下,您可以使用包含 автономный 安装程序的 ISO 映像。有关说明,请参阅 重置映像。
-
如果您想安装 Ubuntu 和 DGX 软件堆栈,您可以在 在 Ubuntu 上安装 中找到说明。它还涵盖了自动化安装过程,例如,用于集群部署。
-
DGX OS 和 Ubuntu 从存储库提供了许多附加软件包,包括附加的 NVIDIA 软件和驱动程序选项。有关更多信息和安装说明,请参阅 附加软件。
附加文档#
以下是一些附加 DGX 文档的链接。
-
DGX 产品的所有文档,包括产品用户指南、软件发行说明和固件更新容器信息
-
新的多实例 GPU (MIG) 功能允许将 NVIDIA A100 GPU 安全地分区为最多七个独立的实例
-
如何访问 NGC 容器注册表以使用容器化的深度学习 GPU
-
包含有关使用 NVIDIA 系统管理器软件的说明。
-
包含有关使用数据中心 GPU 管理器软件的说明。
NVIDIA 企业支持#
NVIDIA 企业支持是 DGX 客户的支持资源,可以协助解决硬件、软件或 NGC 应用程序问题。有关如何获得支持的更多信息,请访问 NVIDIA 企业支持。