DGX-1 用户指南 面向管理员的文档,解释了如何安装和配置 NVIDIA DGX-1 深度学习系统,包括如何通过 NVIDIA 云门户运行应用程序和管理系统。 目录 1. NVIDIA DGX-1 深度学习系统简介 1.1. 使用 DGX-1:概述 1.2. 硬件规格 1.2.1. 组件 1.2.2. 机械 1.2.3. 环境 1.2.4. 电源要求 1.2.5. 连接和控制 1.2.6. 后面板电源控制 1.2.7. LAN LED 指示灯 1.2.8. IPMI 端口 LED 指示灯 1.2.9. 硬盘指示灯 1.2.10. 电源供应单元 (PSU) LED 指示灯 2. 安装和设置 2.1. 注册您的 DGX-1 2.2. 选择安装位置/场地准备 2.3. 打开 DGX-1 包装 2.4. 包装箱内物品 2.5. 将 DGX-1 安装到机架中 2.5.1. 安装导轨 2.5.2. 安装 DGX-1 2.6. 安装面板 2.7. 连接电源线 2.8. 连接网线 2.9. 设置 DGX-1 2.10. DGX OS Server 软件 2.x 及更早版本的安装后说明 2.11. 更新 DGX-1 软件 2.12. 管理 CPU 缓解措施 2.12.1. 确定 DGX 系统的 CPU 缓解状态 2.12.2. 禁用 CPU 缓解措施 2.12.3. 重新启用 CPU 缓解措施 3. 准备使用 Docker 容器 3.1. 在 DGX OS Server 软件 2.x 或更早版本上安装 Docker 和 NVIDIA GPU 的 Docker Engine 实用程序 3.2. 配置 Docker IP 地址 3.2.1. 为 DGX OS Server 软件 2.x 及更早版本配置 Docker IP 地址 3.2.2. 为 DGX OS Server 软件 3.1.1 及更高版本配置 Docker IP 地址 3.3. 允许用户发出 Docker 命令 3.3.1. 检查用户是否在 Docker 组中 3.3.2. 创建用户 3.3.3. 将用户添加到 Docker 组 3.4. 为 NGC 容器启用 GPU 支持 3.5. 配置系统代理 3.6. 配置 NFS 挂载和缓存 4. 配置和管理 DGX-1 4.1. 使用 BMC 4.1.1. 为远程访问创建唯一的 BMC 密码 4.1.2. 查看系统信息 4.1.3. 提交 BMC 日志文件 4.1.4. 确定总功耗 4.1.5. 访问 DGX-1 控制台 4.1.6. 远程关闭/重启系统 4.1.6.1. 从 DGX-1 控制台窗口 4.1.6.2. 从 BMC UI 4.1.7. 设置活动目录 4.2. 为 BMC 配置静态 IP 地址 4.2.1. 使用 ipmitool 配置 BMC 静态 IP 地址 4.2.2. 使用系统 BIOS 配置 BMC 静态 IP 地址 4.2.3. 使用 BMC 仪表板配置 BMC 静态 IP 地址 4.3. 为网络端口配置静态 IP 地址 4.4. 获取 MAC 地址 4.5. 重置 DGX-1 中的 GPU 4.6. 更改 Mellanox 网卡端口类型 4.6.1. 将端口从 InfiniBand 切换到以太网 4.6.2. 将端口从以太网切换到 InfiniBand 4.7. 启用 USB 3.0 5. 安全 6. 维护和维修 NVIDIA DGX-1 6.1. 问题解决和客户服务 6.2. 恢复 DGX-1 软件镜像 6.2.1. 获取 DGX-1 软件 ISO 镜像和校验和文件 6.2.2. 远程重新镜像系统 6.2.3. 创建可引导的安装介质 6.2.3.1. 使用 dd 命令创建可引导的 USB 闪存驱动器 6.2.3.2. 使用 Akeo Rufus 创建可引导的 USB 闪存驱动器 6.2.4. 从 USB 闪存驱动器重新镜像系统 6.2.5. 在安装操作系统时保留 RAID 分区 6.3. 更新系统 BIOS 6.4. 更新 BMC 6.5. 使用固件更新容器更新组件固件 6.5.1. 获取固件更新容器 6.5.2. 查询固件清单 6.5.3. 查询当前安装的固件版本 6.5.4. 更新固件 6.5.4.1. 更新所有固件组件 6.5.4.2. 更新特定固件组件 6.5.4.3. 其他选项 6.5.4.4. 命令摘要 6.5.5. 移除容器 6.5.6. 使用 .run 文件 6.6. 更换系统和组件 6.6.1. 更换系统 6.6.2. 更换 SSD 6.6.3. 重新创建虚拟驱动器 6.6.3.1. 访问 BIOS 设置实用程序 6.6.3.2. 清除驱动器组配置 6.6.3.3. 重新创建操作系统虚拟驱动器 6.6.3.4. 重新创建 RAID0 虚拟驱动器 6.6.4. 重新创建 RAID 0 阵列 6.6.5. 更换电源 6.6.6. 更换风扇模块 6.6.7. 更换电池 6.6.8. 更换 DIMM 6.6.9. 安装/更换 10GbE Mezzanine SPF+ NIC 6.6.10. 更换 InfiniBand 卡 6.6.11. 设置 InfiniBand 卡 6.7. 安全删除 SSD 上的数据 6.7.1. 方法 A:使用 MegaRAID 控制器 6.7.2. 方法 B:使用 StorCLI 安全擦除命令 7. 在 Air-Gapped NVIDIA DGX-1 系统上安装软件 7.1. 安装 NVIDIA DGX-1 软件 7.1.1. 重新镜像系统 7.1.2. 创建 NVIDIA 和 Canonical 存储库的本地镜像 7.1.2.1. 在 DGX OS 4 系统中创建镜像 7.1.2.2. 配置目标 Air-Gapped DGX OS 4 系统 7.2. 安装 Docker 容器 8. NVIDIA DGX-1 的客户支持 9. King Slide - AH61-500 说明 10. 安全 10.1. 安全警告和注意事项 10.2. 预期应用用途 10.3. 场地选择 10.4. 设备操作规范 10.5. 电气预防措施 10.6. 系统访问警告 10.7. 机架安装警告 10.8. 静电放电 10.9. 其他危险 11. 合规性 11.1. 美国 11.2. 美国/加拿大 11.3. 加拿大 11.4. CE 11.5. 日本 11.6. 澳大利亚 11.7. 中国 11.8. 以色列 11.9. 韩国 11.10. 印度 通知