DGX OS 5 / Ubuntu 20.04#
简介#
DGX™ OS 提供了定制安装的 Ubuntu Linux,其中包含特定于系统的优化和配置、附加驱动程序以及诊断和监控工具。它为在 DGX 超级计算机上运行 AI、机器学习和分析应用程序提供了稳定、经过全面测试和支持的操作系统。
NVIDIA® DGX 系统在出厂时预装了 DGX OS,以提供用于运行 AI 和分析工作负载的统包解决方案。基本系统配置将推迟到首次启动时的设置向导。这为用户提供了快速上手使用 DGX 系统的体验。
DGX OS 安装程序以 ISO 映像的形式发布,用于重置 DGX 系统的映像。DGX OS 中包含的附加软件 NVIDIA DGX 软件堆栈作为软件包提供,这些软件包可从互联网上的软件存储库获得。
您还可以选择在常规 Ubuntu 20.04 上安装 NVIDIA DGX 软件堆栈,同时仍然受益于高级 DGX 功能。此安装方法支持更大的灵活性,例如自定义分区方案。集群部署也受益于此安装方法,因为它利用了 Ubuntu 的标准化自动化和非交互式安装过程。
DGX OS 5 功能#
以下是 DGX OS 版本 5 的主要功能
基于 Ubuntu 20.04 LTS
包括来自 Ubuntu 的扩展安全维护更新
所有 DGX 系统的通用 ISO
手动安装 Ubuntu 和 DGX 软件堆栈的选项
DGX 系统特定的性能优化
NVIDIA 系统管理 (NVSM) NVSM 为数据中心内的 NVIDIA DGX 节点提供主动健康状况监控和系统警报。它还提供简单的命令来从命令行检查 DGX 系统的健康状况
数据中心 GPU 管理 (DCGM) 此软件支持节点范围的 GPU 管理,可用于集群和数据中心级别的管理
NVIDIA GPU 驱动程序、CUDA 工具包和特定领域库
Docker Engine
NVIDIA 容器工具包
用于缓存 NFS 读取的 Cachefiles 守护程序
在 RAID 级别之间转换数据磁盘的工具
磁盘驱动器加密和根文件系统加密(可选)
用于具有 Mellanox 网卡的系统的 Mellanox OpenFabrics Enterprise Distribution for Linux (MOFED) 和 Mellanox Software Tools (MST)
概述#
本文档涵盖 DGX OS 的部署和升级选项。它还提供了有关设置系统和安装附加软件的说明。
-
如果您的系统已在运行 DGX OS 6,您可以跳至初始设置,以获取有关如何在首次启动时设置系统的说明。请务必查看升级,以获取有关将软件升级到最新版本的信息。
-
要将您的 DGX OS 升级到最新的软件版本,或者要获取有关执行从 DGX OS 5 到 DGX OS 6 的版本升级的说明,您可以在升级中找到更多详细信息和说明。
-
在您想要将 DGX 系统恢复到默认 DGX OS 安装并擦除所有数据的情况下,您可以使用包含 автономный 安装程序的 ISO 映像。请参阅重置映像以获取说明。
-
如果您想安装 Ubuntu 和 DGX 软件堆栈,您可以在在 Ubuntu 上安装中找到说明。它还涵盖了自动化安装过程,例如,用于集群部署。
-
DGX OS 和 Ubuntu 从存储库中提供了许多附加软件包,包括附加的 NVIDIA 软件和驱动程序选项。请参阅附加软件以获取更多信息和安装说明。
附加文档#
以下是一些附加 DGX 文档的链接。
-
所有 DGX 产品的文档,包括产品用户指南、软件发行说明和固件更新容器信息
-
新的多实例 GPU (MIG) 功能允许将 NVIDIA A100 GPU 安全地划分为最多七个独立的 GPU 实例
-
如何访问 NGC 容器注册表以使用容器化的深度学习 GPU
-
包含有关使用 NVIDIA 系统管理器软件的说明。
-
包含有关使用数据中心 GPU 管理器软件的说明。
NVIDIA 企业支持#
NVIDIA 企业支持是 DGX 客户的支持资源,可以协助解决硬件、软件或 NGC 应用程序问题。有关如何获得支持的更多信息,请访问NVIDIA 企业支持。