DGX OS 7 / Ubuntu 24.04#

NVIDIA DGX OS 7 / Ubuntu 24.04 用户指南 也可作为 PDF 文件提供。

关于 DGX OS 7#

NVIDIA DGX OS 提供了 Ubuntu Linux 的自定义安装,其中包含特定于系统的优化和配置、额外的驱动程序以及诊断和监控工具。它为在 DGX 超级计算机上运行 AI、机器学习和分析应用程序提供了稳定、经过全面测试和支持的操作系统。

NVIDIA DGX 系统在出厂时已预装 DGX OS,从而为运行 AI 和分析工作负载提供了开箱即用的解决方案。初始系统配置推迟到首次启动后运行的设置向导。设置向导为用户提供了使用 DGX 系统的快速入门体验。

DGX OS 安装程序以 ISO 映像形式发布,用于重新映像 DGX 系统。DGX OS 中包含的附加软件 NVIDIA DGX 软件堆栈以软件包形式提供,这些软件包可从互联网上的软件存储库获得。

您还可以选择在常规 Ubuntu 24.04 上安装 NVIDIA DGX 软件堆栈,同时仍然受益于高级 DGX 功能。此安装方法支持更高的灵活性,例如自定义分区方案。集群部署也受益于此安装方法,因为它利用了 Ubuntu 标准化的自动化和非交互式安装过程。

DGX OS 7 功能#

以下是 DGX OS 7 版本的关键功能

  • 基于 Ubuntu 24.04,采用 Linux 内核版本 6.8,以获得最新的硬件和安全更新,以及软件程序包的更新,例如 Python、GCC 和 OpenJDK。

  • 包括 Ubuntu 通用内核(基于 x86_64 的 DGX 服务器)和 NVIDIA 优化的 Linux 内核(基于 arm64 的 DGX 服务器)。

  • 提供对所有 NVIDIA GPU 驱动程序分支和 CUDA 工具包版本的访问。

  • 使用 NVIDIA DOCA™ OFED(OpenFabrics Enterprise Distribution)软件,它是 MLNX_OFED 的后继产品。

  • 提供来自 Ubuntu Universe 存储库的 Ubuntu Pro Client 的扩展安全维护 (ESM) 订阅。

  • 支持 Emerald Rapids CPU。

  • 支持以下 NVIDIA DGX™ 系统

    • DGX B200

    • DGX H200

    • DGX H100

    • DGX H800

    • DGX A100

    • DGX A800

    • DGX Station A100

    • DGX Station A800

安装和升级#

本文档涵盖 DGX OS 的安装和升级选项。它还提供了有关设置系统和安装其他软件的说明。

初始设置

如果您的 DGX 系统上已安装 DGX OS 7,请参阅 初始设置,以获取有关首次启动时设置系统的信息。

初始设置后,请参阅 升级操作系统,以执行软件包升级到最新的软件包版本。

升级操作系统

要将 DGX OS 升级到最新的软件包版本,或者要了解有关从 DGX OS 5 或 DGX OS 6 执行版本升级到 DGX OS 7 的信息,请参阅 升级操作系统

重新映像系统

要将 DGX 系统恢复为默认 DGX OS 安装并擦除所有数据,您可以使用包含 автономный 安装程序的 ISO 映像。有关更多信息,请参阅 重新映像系统

使用 DGX 软件自定义 Ubuntu 安装

要安装 Ubuntu 和 DGX 软件堆栈,请参阅 使用 DGX 软件自定义 Ubuntu 安装,以获取有关自动化安装过程(例如集群部署)的信息。

管理操作系统和软件更新

DGX OS 和 Ubuntu 提供了额外的软件包,包括额外的 NVIDIA 软件和驱动程序选项。有关更多信息和安装说明,请参阅 管理操作系统和软件更新

重要提示

在升级或安装任何新软件之前,请务必查阅发行说明,以获取有关可用升级的最新信息。您可以在 发布指导 中了解有关 DGX OS 的发布节奏和发布方法的更多信息。

NVIDIA 企业支持#

NVIDIA 企业支持是 DGX 客户的支持资源,可以协助解决硬件、软件或 NGC 应用程序问题。有关如何获得支持的更多信息,请访问 NVIDIA 企业支持