简介
NVIDIA® DGX™ 系统(DGX-1、DGX-2 和 DGX A100 服务器,以及 NVIDIA DGX Station™ 和 DGX Station A100 系统) 出厂时预装了 DGX™ OS,该系统集成了基于 Ubuntu Linux 发行版构建的 NVIDIA DGX 软件堆栈。您可以选择在 DGX 系统上运行 CentOS,而不是运行 Ubuntu 发行版,并且仍然可以利用高级 DGX 功能。
本文档介绍了如何在安装了 CentOS 的 DGX 系统上安装和配置 NVIDIA DGX 软件堆栈。
先决条件
以下是必需的(或在指示的情况下为推荐的)。
访问仓库
可以从互联网访问仓库。
如果您正在使用代理服务器,请按照配置系统代理部分中的说明进行操作,以确保系统可以访问必要的 URI。
您可以使用 yum-config-manager 来方便地启用某些仓库。要使用 yum-config-manager,请先安装 yum 实用程序。
sudo yum -y install yum-utils
NVIDIA 仓库
- NVIDIA DGX 软件仓库
在 DGX 系统上安装 CentOS 后,您必须启用 NVIDIA DGX 软件仓库。该仓库包含用于支持 DGX 系统的 NVIDIA 驱动程序和软件。
有关如何启用仓库的说明,请参阅启用仓库部分。
CentOS 仓库
在 CentOS 上安装 DGX 软件需要访问几个额外的仓库。
- CentOS 软件集合仓库: centos-release-scl
NVSM 工具需要此仓库用于 Python 3。
- CentOS 测试仓库: centos-sclo-rh-testing
NVSM 工具需要此仓库用于 Python 3。
网络文件系统
在 DGX 服务器上,数据驱动器旨在用作缓存。DGX Station 用户可以遵循相同的用法,或者可以选择将这些驱动器用于存储。当将数据驱动器用作缓存时,建议使用网络文件系统 (NFS) 以利用 DGX 软件堆栈提供的缓存文件系统。
BMC 密码
DGX BMC 随附默认登录凭据,如附录 B:更改 BMC 登录中所述。
NVIDIA 建议尽快禁用默认用户名并创建唯一的 BMC 用户名和强密码。有关说明,请参阅附录 B:更改 BMC 登录。