NVIDIA
DGX 系统文档
搜索范围
整个站点
仅本文档
清除搜索
搜索
概述
DGX-1 用户指南
1. NVIDIA DGX-1 深度学习系统简介
1.1. DGX-1 使用入门:概述
1.2. 硬件规格
1.2.1. 组件
1.2.2. 机械
1.2.3. 环境
1.2.4. 电源要求
1.2.5. 连接和控制
1.2.6. 后面板电源控制
1.2.7. LAN LED 指示灯
1.2.8. IPMI 端口 LED 指示灯
1.2.9. 硬盘指示灯
1.2.10. 电源单元 (PSU) LED 指示灯
2. 安装和设置
2.1. 注册您的 DGX-1
2.2. 选择安装位置/场地准备
2.3. 打开 DGX-1 包装
2.4. 包装箱内物品
2.5. 将 DGX-1 安装到机架中
2.5.1. 安装导轨
2.5.2. 安装 DGX-1
2.6. 安装前面板
2.7. 连接电源线
2.8. 连接网线
2.9. 设置 DGX-1
2.10. DGX OS Server 软件 2.x 及更早版本的安装后说明
2.11. 更新 DGX-1 软件
2.12. 管理 CPU 缓解措施
2.12.1. 确定 DGX 系统的 CPU 缓解状态
2.12.2. 禁用 CPU 缓解措施
2.12.3. 重新启用 CPU 缓解措施
3. 准备使用 Docker 容器
3.1. 在 DGX OS Server 软件 2.x 或更早版本上安装 Docker 和 NVIDIA GPU 的 Docker Engine 实用程序
3.2. 配置 Docker IP 地址
3.2.1. 为 DGX OS Server 软件 2.x 及更早版本配置 Docker IP 地址
3.2.2. 为 DGX OS Server 软件 3.1.1 及更高版本配置 Docker IP 地址
3.3. 允许用户发出 Docker 命令
3.3.1. 检查用户是否在 Docker 组中
3.3.2. 创建用户
3.3.3. 将用户添加到 Docker 组
3.4. 为 NGC 容器启用 GPU 支持
3.5. 配置系统代理
3.6. 配置 NFS 挂载和缓存
4. 配置和管理 DGX-1
4.1. 使用 BMC
4.1.1. 为远程访问创建唯一的 BMC 密码
4.1.2. 查看系统信息
4.1.3. 提交 BMC 日志文件
4.1.4. 确定总功耗
4.1.5. 访问 DGX-1 控制台
4.1.6. 远程关闭/重启系统
4.1.6.1. 从 DGX-1 控制台窗口
4.1.6.2. 从 BMC UI
4.1.7. 设置活动目录
4.2. 为 BMC 配置静态 IP 地址
4.2.1. 使用 ipmitool 配置 BMC 静态 IP 地址
4.2.2. 使用系统 BIOS 配置 BMC 静态 IP 地址
4.2.3. 使用 BMC 仪表板配置 BMC 静态 IP 地址
4.3. 为网络端口配置静态 IP 地址
4.4. 获取 MAC 地址
4.5. 重置 DGX-1 中的 GPU
4.6. 更改 Mellanox 网卡端口类型
4.6.1. 将端口从 InfiniBand 切换到以太网
4.6.2. 将端口从以太网切换到 InfiniBand
4.7. 启用 USB 3.0
5. 安全性
6. 维护和维修 NVIDIA DGX-1
6.1. 问题解决和客户服务
6.2. 恢复 DGX-1 软件映像
6.2.1. 获取 DGX-1 软件 ISO 映像和校验和文件
6.2.2. 远程重新映像系统
6.2.3. 创建可引导的安装介质
6.2.3.1. 使用 dd 命令创建可引导的 USB 闪存驱动器
6.2.3.2. 使用 Akeo Rufus 创建可引导的 USB 闪存驱动器
6.2.4. 从 USB 闪存驱动器重新映像系统
6.2.5. 在安装操作系统时保留 RAID 分区
6.3. 更新系统 BIOS
6.4. 更新 BMC
6.5. 使用固件更新容器更新组件固件
6.5.1. 获取固件更新容器
6.5.2. 查询固件清单
6.5.3. 查询当前安装的固件版本
6.5.4. 更新固件
6.5.4.1. 更新所有固件组件
6.5.4.2. 更新特定固件组件
6.5.4.3. 其他选项
6.5.4.4. 命令摘要
6.5.5. 移除容器
6.5.6. 使用 .run 文件
6.6. 更换系统和组件
6.6.1. 更换系统
6.6.2. 更换 SSD
6.6.3. 重建虚拟驱动器
6.6.3.1. 访问 BIOS 设置实用程序
6.6.3.2. 清除驱动器组配置
6.6.3.3. 重建 OS 虚拟驱动器
6.6.3.4. 重建 RAID0 虚拟驱动器
6.6.4. 重建 RAID 0 阵列
6.6.5. 更换电源
6.6.6. 更换风扇模块
6.6.7. 更换电池
6.6.8. 更换 DIMM
6.6.9. 安装/更换 10GbE Mezzanine SPF+ NIC
6.6.10. 更换 InfiniBand 卡
6.6.11. 设置 InfiniBand 卡
6.7. 安全删除 SSD 中的数据
6.7.1. 方法 A:使用 MegaRAID 控制器
6.7.2. 方法 B:使用 StorCLI 安全擦除命令
7. 在 Air-Gapped NVIDIA DGX-1 系统上安装软件
7.1. 安装 NVIDIA DGX-1 软件
7.1.1. 重新映像系统
7.1.2. 创建 NVIDIA 和 Canonical 仓库的本地镜像
7.1.2.1. 在 DGX OS 4 系统中创建镜像
7.1.2.2. 配置目标 Air-Gapped DGX OS 4 系统
7.2. 安装 Docker 容器
8. NVIDIA DGX-1 的客户支持
9. King Slide - AH61-500 说明
10. 安全
10.1. 安全警告和注意事项
10.2. 预期应用用途
10.3. 场地选择
10.4. 设备操作规范
10.5. 电气预防措施
10.6. 系统访问警告
10.7. 机架安装警告
10.8. 静电放电
10.9. 其他危害
11. 合规性
11.1. 美国
11.2. 美国 / 加拿大
11.3. 加拿大
11.4. CE
11.5. 日本
11.6. 澳大利亚
11.7. 中国
11.8. 以色列
11.9. 韩国
11.10. 印度
声明
搜索结果
DGX-1 用户指南 (
PDF
) - 上次更新时间 2020 年 12 月 2 日 -
King Slide - AH61-500 说明
这些是 DGX-1 随附的导轨套件的导轨组装说明。
所有图片版权归 2016 King Slide 所有。保留所有权利