NVIDIA DGX-1 深度学习系统简介
DGX-1 的使用:概述
NVIDIA DGX-1 配备了基本操作系统,该操作系统由 Ubuntu OS、Docker、用于 NVIDIA GPU 的 Docker Engine Utility 和 NVIDIA 驱动程序组成。该系统旨在运行许多 NVIDIA 优化的深度学习框架应用程序,这些应用程序打包在 Docker 容器中。您可以使用自己的调度和管理软件来运行作业,还可以在 DGX-1 上构建和运行自己的应用程序。
硬件规格
组件
组件 | 数量 | 描述 |
---|---|---|
基础服务器 | 1 | 双 Intel® Xeon® CPU 主板,带 x2 9.6 GT/s QPI,8 通道,带 2 DPC DDR4,Intel®C610 芯片组,AST2400 BMC |
1 | GPU 基板,支持 8 个 SXM2 模块(立方网格)和 4 个用于 InfiniBand/以太网网卡的 PCIE x16 插槽 | |
1 | 机箱,带 3+1 1600W 电源,最多支持五个 2.5 英寸驱动器 | |
1 | 10/100BASE-T IPMI 端口 | |
1 | RS232 串行端口 | |
2 | USB 3.0 端口(默认设置为 USB 2.0。要启用 USB 3.0,请参阅 启用 USB 3.0 获取说明。) | |
电源 | 4 | 每个 1600 瓦。 |
CPU | 2 | Intel® Xeon® E5-2698 v4,20 核,2.2GHz,135W |
GPU | 8 | (Pascal)Tesla P100,具有
|
系统内存 | 16 | 32 GB DDR4 LRDIMM(总共 512 GB) |
SAS Raid 控制器 | 1 | 8 端口 LSI SAS 3108 RAID Mezzanine |
存储(RAID 0)(数据) | 4 | 1.92 TB,6 Gb/s,SATA 3.0 SSD |
存储(OS) | 1 | 480 GB,6 Gb/s,SATA 3.0 SSD |
10 GbE 网卡 | 1 | 双端口,10GBASE-T,网络适配器 Mezzanine |
InfiniBand EDR/100GbE 网卡 | 4 | 单端口,x16 PCIe,Mellanox ConnectX-4 VPI MCX455A-ECAT 或 单端口,x16 PCIe,Mellanox ConnectX-5 VPI MCX555A-ECAT |
连接和控制

ID | 类型 | 数量 | 描述 |
---|---|---|---|
1 | 电源按钮 | 1 |
按下以打开或关闭 DGX-1。 蓝色:系统电源已打开 关闭:系统电源已关闭 琥珀色(闪烁):直流电源已关闭,BMC SEL 中报告故障 琥珀色和蓝色(闪烁):直流电源已打开,BMC SEL 中报告故障 |
2 | ID 按钮 | 1 | 按下以使设备背面的 LED 指示灯闪烁,以便在维修期间进行识别。 |
3 | InfiniBand/以太网 (QSFP28) | 4 | EDR IB/100GbE |
4 | USB | 2 | USB 3.0 端口可用于连接键盘。 |
5 | VGA | 1 | VGA 端口连接到支持 VGA 的显示器,用于本地查看 DGX-1 设置控制台或基本操作系统。 |
6 | DB9 | 1 | RS232 串行端口,用于内部调试 |
7 | 交流输入 | 4 | 电源输入 |
8 | 以太网 (RJ45) | 2 | 10GBASE-T 双端口网络适配器 Mezzanine |
9 |
IPMI (RJ45) |
1 | 10/100BASE-T 智能平台管理接口 (IPMI) 端口 |