简介

NVIDIA® DGX™ 系统(DGX-1、DGX-2 和 DGX A100 服务器,以及 NVIDIA DGX Station™ 和 DGX Station A100 系统) 出厂时预装了 DGX™ OS,该系统集成了基于 Ubuntu Linux 发行版构建的 NVIDIA DGX 软件堆栈。您可以选择在 DGX 系统上运行 CentOS,而不是运行 Ubuntu 发行版,并且仍然可以利用高级 DGX 功能。

本文档介绍了如何在安装了 CentOS 的 DGX 系统上安装和配置 NVIDIA DGX 软件堆栈。

重要提示: NVIDIA 承认 CentOS 的广泛使用,并理解它是 NVIDIA 支持的 Red Hat Enterprise Linux 的社区开发衍生版本。对 CentOS 的支持直接来自 CentOS 社区。NVIDIA 确保 NVIDIA 提供的软件在经过测试的 CentOS 版本上运行,并将尝试识别和纠正与 NVIDIA 提供的软件相关的问题。
注意: 虽然可以使用 CentOS 以外的其他衍生 Linux 发行版,但并非所有发行版都经过 NVIDIA 的测试和认证。有关经过测试和认证的软件和 Linux 发行版的列表,请参阅 DGX Software for Red Hat Enterprise Linux 7 发行说明

先决条件

以下是必需的(或在指示的情况下为推荐的)。

访问仓库

可以从互联网访问仓库。

如果您正在使用代理服务器,请按照配置系统代理部分中的说明进行操作,以确保系统可以访问必要的 URI。

注意

您可以使用 yum-config-manager 来方便地启用某些仓库。要使用 yum-config-manager,请先安装 yum 实用程序。

sudo yum -y install yum-utils 

NVIDIA 仓库

  • NVIDIA DGX 软件仓库

    在 DGX 系统上安装 CentOS 后,您必须启用 NVIDIA DGX 软件仓库。该仓库包含用于支持 DGX 系统的 NVIDIA 驱动程序和软件。

    有关如何启用仓库的说明,请参阅启用仓库部分。

CentOS 仓库

在 CentOS 上安装 DGX 软件需要访问几个额外的仓库。

  • CentOS 软件集合仓库: centos-release-scl

    NVSM 工具需要此仓库用于 Python 3。

  • CentOS 测试仓库: centos-sclo-rh-testing

    NVSM 工具需要此仓库用于 Python 3。

网络文件系统

在 DGX 服务器上,数据驱动器旨在用作缓存。DGX Station 用户可以遵循相同的用法,或者可以选择将这些驱动器用于存储。当将数据驱动器用作缓存时,建议使用网络文件系统 (NFS) 以利用 DGX 软件堆栈提供的缓存文件系统。

BMC 密码

DGX BMC 随附默认登录凭据,如附录 B:更改 BMC 登录中所述。

重要提示

NVIDIA 建议尽快禁用默认用户名并创建唯一的 BMC 用户名和强密码。有关说明,请参阅附录 B:更改 BMC 登录