NVIDIA DGX-1 深度学习系统简介

NVIDIA® DGX-1™ 深度学习系统是世界首款专为深度学习而构建的系统,它集成了完整的硬件和软件,可以快速轻松地部署。



DGX-1 的使用:概述

NVIDIA DGX-1 配备了基本操作系统,该操作系统由 Ubuntu OS、Docker、用于 NVIDIA GPU 的 Docker Engine Utility 和 NVIDIA 驱动程序组成。该系统旨在运行许多 NVIDIA 优化的深度学习框架应用程序,这些应用程序打包在 Docker 容器中。您可以使用自己的调度和管理软件来运行作业,还可以在 DGX-1 上构建和运行自己的应用程序。

硬件规格

组件

组件 数量 描述
基础服务器 1 双 Intel® Xeon® CPU 主板,带 x2 9.6 GT/s QPI,8 通道,带 2 DPC DDR4,Intel®C610 芯片组,AST2400 BMC
1 GPU 基板,支持 8 个 SXM2 模块(立方网格)和 4 个用于 InfiniBand/以太网网卡的 PCIE x16 插槽
1 机箱,带 3+1 1600W 电源,最多支持五个 2.5 英寸驱动器
1 10/100BASE-T IPMI 端口
1 RS232 串行端口
2 USB 3.0 端口(默认设置为 USB 2.0。要启用 USB 3.0,请参阅 启用 USB 3.0 获取说明。)
电源 4 每个 1600 瓦。
CPU 2 Intel® Xeon® E5-2698 v4,20 核,2.2GHz,135W
GPU 8 (Pascal)Tesla P100,具有
  • 170 万亿次浮点运算/秒,FP16
  • 每个 GPU 16 GB 内存
  • 28,672 个 NVIDIA CUDA® 核心
(Volta)Tesla V100,具有
  • 1 千万亿次浮点运算/秒,混合精度
  • 每个 GPU 16 GB 内存
  • 40,960 个 NVIDIA CUDA® 核心
  • 5120 个 NVIDIA Tensor 核心
(Volta 32 GB)Tesla V100,具有
  • 1 千万亿次浮点运算/秒,混合精度
  • 每个 GPU 32 GB 内存
  • 40,960 个 NVIDIA CUDA® 核心
  • 5120 个 NVIDIA Tensor 核心
系统内存 16 32 GB DDR4 LRDIMM(总共 512 GB)
SAS Raid 控制器 1 8 端口 LSI SAS 3108 RAID Mezzanine
存储(RAID 0)(数据) 4 1.92 TB,6 Gb/s,SATA 3.0 SSD
存储(OS) 1 480 GB,6 Gb/s,SATA 3.0 SSD
10 GbE 网卡 1 双端口,10GBASE-T,网络适配器 Mezzanine
InfiniBand EDR/100GbE 网卡 4 单端口,x16 PCIe,Mellanox ConnectX-4 VPI MCX455A-ECAT

单端口,x16 PCIe,Mellanox ConnectX-5 VPI MCX555A-ECAT

机械

特性 描述
外形尺寸 3U 机架式
高度 5.16 英寸(13.1 厘米)
宽度 17.5 英寸(44.4 厘米)
深度 34.1 英寸(86.6 厘米)
总重量 134 磅(61 公斤)

环境

特性 描述
工作温度 5o C 至 35o C (41o F 至 95o F)
相对湿度 20% 至 85% 非冷凝
气流 340 CFM @ 35o C
散热量 12000 BTU/小时

电源要求

输入 每个电源的规格 注释
200-240 伏 (交流) 3500 瓦 最大值。

1600 瓦 @ 200-240 伏,

8 安培,50-60 赫兹

DGX-1 包含四个负载均衡电源,具有 3+1 冗余。

连接和控制

ID 类型 数量 描述
1 电源按钮 1

按下以打开或关闭 DGX-1。

蓝色:系统电源已打开

关闭:系统电源已关闭

琥珀色(闪烁):直流电源已关闭,BMC SEL 中报告故障

琥珀色和蓝色(闪烁):直流电源已打开,BMC SEL 中报告故障

2 ID 按钮 1 按下以使设备背面的 LED 指示灯闪烁,以便在维修期间进行识别。
3 InfiniBand/以太网 (QSFP28) 4 EDR IB/100GbE
4 USB 2 USB 3.0 端口可用于连接键盘。
5 VGA 1 VGA 端口连接到支持 VGA 的显示器,用于本地查看 DGX-1 设置控制台或基本操作系统。
6 DB9 1 RS232 串行端口,用于内部调试
7 交流输入 4 电源输入
8 以太网 (RJ45) 2 10GBASE-T 双端口网络适配器 Mezzanine
9

IPMI (RJ45)

1 10/100BASE-T 智能平台管理接口 (IPMI) 端口

后面板电源控制

ID 类型 数量 描述
1 电源按钮 1

按下并立即释放电源按钮,以优雅地关闭主机操作系统。

按住电源按钮至少四秒钟以立即关闭系统。BMC 保持活动状态。

2 电源 LED 指示灯 1

关闭:电源关闭

蓝色(常亮):电源已打开

蓝色(闪烁):BMC 报告系统健康状况故障。

3 主板状态 LED 指示灯 1

关闭:正常

琥珀色(闪烁):BMC 报告系统健康状况故障。

LAN LED 指示灯

每个以太网端口旁边的 LED 指示灯指示连接状态,如下表所述

LED 指示灯 状态 描述

1

(端口 1 链路/活动)

琥珀色(常亮) LAN 链路
琥珀色(闪烁) LAN 访问(有流量时熄灭)
关闭 已断开连接

2

(端口 1 速度)

绿色 10 Gb/秒
琥珀色 1 Gb/秒
关闭 100 Mb/秒

3

(端口 0 链路/活动)

琥珀色(常亮) LAN 链路
琥珀色(闪烁) LAN 访问(有流量时熄灭)
关闭 已断开连接

4

(端口 0 速度)

绿色 10 Gb/秒
琥珀色 1 Gb/秒
关闭 100 Mb/秒

IPMI 端口 LED 指示灯

IPMI 端口上的 LED 指示灯指示连接状态,如下表所述

链路 活动 描述
关闭 关闭 已拔下
绿色(常亮) 绿色(闪烁) 100M 活动链路
关闭 绿色(闪烁) 10M 活动链路

硬盘指示灯

ID 特性 描述
1 用于移除 HDD 的按钮和释放杆
2 HDD 存在 LED 指示灯

蓝色(常亮):驱动器存在

蓝色(每秒闪烁两次):识别(例如在初始化或通过 SBIOS 定位时)

蓝色(每秒闪烁一次):重建(例如在创建 RAID 阵列时)

琥珀色(常亮):警告/故障

关闭:插槽为空

3 HDD 活动 LED 指示灯 蓝色:访问

电源供应单元 (PSU) LED 指示灯

PSU LED 指示灯指示 PSU 的运行状态,如下表所述

活动 描述
绿色 正常运行
琥珀色(闪烁) 电源关闭;故障
绿色(闪烁) 电源打开;待机模式