适用于红帽企业 Linux 7 的 DGX 软件 - 安装指南 为用户和管理员提供的文档,说明如何在安装了红帽企业 Linux 7 作为基础操作系统的 DGX 系统上安装 DGX 软件。 目录 1. 简介 1.1. 相关文档 1.2. 前提条件 1.2.1. 红帽订阅 1.2.2. 访问仓库 1.2.2.1. NVIDIA 仓库 1.2.2.2. 红帽仓库 1.2.3. 网络文件系统 1.2.4. BMC 密码 2. 安装红帽企业 Linux 2.1. 获取红帽企业 Linux 2.2. 本地启动红帽企业 Linux ISO 2.3. 在 DGX-1、DGX-2 或 DGX A100 上远程启动红帽企业 Linux ISO 2.3.1. 在 DGX-1 上远程启动 ISO 镜像 2.3.2. 在 DGX-2 上远程启动 ISO 镜像 2.3.3. 在 DGX A100 上远程启动 ISO 镜像 2.4. 安装红帽企业 Linux 2.4.1. 在 DGX-1、DGX Station 或 DGX Station A100 上安装 2.4.2. 在 DGX-2 上安装 2.4.3. 在 DGX A100 上安装 3. 安装 DGX 软件 3.1. 配置系统代理 3.2. 启用仓库 3.3. 安装必需组件 3.3.1. 安装 DGX 工具并更新配置文件 3.3.2. 配置 /raid 分区 3.3.2.1. 将 /raid 分区配置为 NFS 缓存 3.3.2.2. 将 /raid 分区配置为本地持久存储 3.3.3. 安装和加载 NVIDIA CUDA 驱动程序 3.3.4. 安装 NVIDIA 容器运行时 3.4. 安装诊断组件 3.5. 在 DGX-2 或 DGX A100 上复制 EFI 系统分区 3.6. 安装可选组件 3.7. 将 NVIDIA 外观应用于桌面用户界面 3.8. 管理 CPU 缓解措施 3.8.1. 确定 DGX 系统的 CPU 缓解状态 3.8.2. 禁用 CPU 缓解措施 3.8.3. 重新启用 CPU 缓解措施 4. 使用 NVIDIA Mellanox InfiniBand 驱动程序 4.1. 确定要安装的 MLNX_OFED 版本 4.2. 安装 NVIDIA Mellanox InfiniBand 驱动程序 4.3. 更新 NVIDIA Mellanox InfiniBand 驱动程序 5. 运行容器 6. 配置存储 - NFS 挂载和缓存 A. 在 air-gap 的 NVIDIA DGX 系统上安装软件 A.1. 注册您的系统 A.2. 在低端红帽系统上创建镜像 A.3. 在 air-gap 的 DGX-2/DGX A100 上安装红帽企业 Linux A.4. 在 air-gap 的 DGX-2/DGX A100 上安装 DGX 软件 A.5. 重命名 RAID 卷 A.6. 安装 Docker 容器 B. 使用本地仓库安装软件 B.1. 安装基础红帽企业 Linux 系统 B.2. 下载本地仓库 B.3. 安装本地仓库 C. 更改 BMC 登录信息 C.1. 更改 DGX-1 上的 BMC 登录信息 C.2. 更改 DGX-2 或 DGX A100 上的 BMC 登录信息 D. 为 DGX Station 使用自定义 DGX 软件实用程序 D.1. 重建或重新创建 DGX Station RAID 阵列 D.2. 更改 RAID 阵列的 RAID 级别 D.3. 仅限 EL7-20.01:检查 DGX Station 的健康状况 D.4. 仅限 EL7-20.01:收集信息以排除 DGX Station 故障 E. 扩展 DGX Station RAID 阵列 公告