NVIDIA DGX A100 系统简介#

NVIDIA DGX™ A100 系统是通用系统,专为所有 AI 基础设施和工作负载而构建,从分析到训练再到推理。该系统基于八个 NVIDIA A100 Tensor Core GPU 构建。

_images/dgxa100-front.png

本文档适用于 DGX A100 系统的用户和管理员。

硬件概述#

本节提供有关 DGX A100 中硬件的信息。

DGX A100 型号和组件描述#

NVIDIA DGX A100 系统有两个型号:NVIDIA DGX A100 640GB 系统和 NVIDIA DGX A100 320GB 系统。

型号区分#

型号区分#

组件

NVIDIA DGX A100 640GB 系统

NVIDIA DGX A100 320GB 系统

GPU

8 个 NVIDIA A100 GPU

第三代 NVLink

8 个 NVIDIA A100 GPU

第三代 NVLink

GPU 总内存

640 GB

320 GB

NVIDIA NVSwitch

数量 6

第二代(比第一代快 2 倍)

数量 6

第二代(比第一代快 2 倍)

网络

最多 10 个(出厂配置)

NVIDIA ConnectX-6 或 ConnectX-7

InfiniBand/200 Gb/s 以太网

最多 9 个(出厂配置)

NVIDIA ConnectX-6 或 ConnectX-7 IB/200 Gb/s 以太网

(可选附加组件:第二个双端口 200 Gb/s 以太网)

CPU

2 个 AMD Rome,总共 128 核

2 个 AMD Rome,总共 128 核

系统内存

2 TB(出厂配置)

1 TB(出厂配置)

(可选附加组件:1 TB 以获得最大 2 TB。)

存储

30 TB(出厂配置)

U.2 NVMe 硬盘

(可选硬盘升级到 60 TB)

15 TB(出厂配置)

U.2 NVMe 硬盘

(可选附加组件:15 TB 以获得最大 30 TB。

可选硬盘升级到 60 TB)

组件描述#

组件描述#

组件

描述

GPU

NVIDIA A100 GPU

CPU

2 个 AMD EPYC 7742 CPU,带 64 核

NVSwitch

600 GB/s GPU 到 GPU 带宽

存储 (OS)

1.92 TB NVMe M.2 SSD (ea),采用 RAID 1 阵列

存储(数据缓存)

3.84 TB NVMe U.2 SED (ea),采用 RAID 0 阵列

(可选 7.68 TB NVMe U.2. SED)

网络(集群)卡

NVIDIA ConnectX-6 或 ConnectX-7 单端口 InfiniBand(默认):高达 200Gbps

以太网:200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

注意

NVIDIA ConnectX-7 单端口网卡仅支持 InfiniBand 协议。

网络(存储)卡

NVIDIA ConnectX-6 或 ConnectX-7 双端口以太网(默认):200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

InfiniBand:高达 200Gbps

系统内存 (DIMM)

每 16 个 DIMM 1 TB

BMC(带外系统管理)

1 GbE RJ45 接口

支持 IPMI、SNMP、KVM 和 Web 用户界面以及 Redfish API。

带内系统管理

1 GbE RJ45 接口

电源

3 千瓦

机械规格#

以下是有关机械规格的一些信息。

机械规格#

特性

描述

外形尺寸

6U 机架式

高度

10.4 英寸(264 毫米)

宽度

19 英寸(482.3 毫米)最大

深度

35.3 英寸(897.1 毫米)最大

系统重量

271.5 磅(123.16 公斤)最大

电源规格#

DGX A100 系统包含六个电源,电源负载均衡分布。

电源规格 :header#

输入

每个电源的规格

200-240 伏交流电

最大 6.5 千瓦

3000 瓦 @ 200-240 伏,16 安,50-60 赫兹

支持 N+N 冗余#

DGX A100 包括六个电源单元 (PSU),配置为 3+3 冗余。如果三个 PSU 发生故障,系统将继续以全功率运行,其余三个 PSU 供电。

注意

  • 如果只有两个 PSU 工作,GPU 将不可用,但服务器仍将启动。这允许您从缓存 SSD 收集调试或系统日志或其他数据。

  • 如果只有一个 PSU 工作,请排除其他 PSU 电源丢失的原因并进行更正。如果需要更换故障 PSU,请关闭系统并安装工作 PSU。

DGX A100 锁定电源线规格#

DGX A100 随附一套六 (6) 根锁定电源线,这些电源线经过认证可与 DGX A100 一起使用,以确保符合法规。

以下锁定电源线类型已获批准

  • PSU 侧的开关锁定

  • PSU 侧的扭锁

警告

为避免触电或火灾,请仅使用 NVIDIA 提供的电源线连接 DGX A100 的电源。有关更多详细信息,请参阅电气预防措施

重要提示

请勿将提供的电缆用于任何其他产品或任何其他目的。

电源线规格#

电源线特性

规格

电气

250VAC,16A

插头标准

C19/C20

尺寸

1200 毫米长度

合规性

电线:UL62、IEC60227

连接器/插头:IEC60320-1

使用锁定电源线#

本节提供有关如何使用锁定电源线的信息。

锁定和解锁 PDU 侧#

配电单元侧

  • 要插入,请将电缆推入 PDU 插座。

  • 要移除,请将夹子压在一起,然后将电源线从插座中拔出。

_images/lock-unlock-pdu-side.png

锁定/解锁 PSU 侧(带开关锁定机制的电源线)#

电源(系统)侧 - 开关锁定

  • 要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。

_images/lock-unlock-psu-side.png

锁定/解锁 PSU 侧(带扭锁机制的电源线)#

电源(系统)侧 - 扭锁

  • 要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。

_images/lock-unlock-psu-cord-twist-lock-mech.png

环境规格#

以下是 DGX A100 系统的环境规格。

特性

规格

运行温度

5°C 至 30°C(41°F 至 86°F)

相对湿度

20% 至 80% 无冷凝

气流

840 CFM @ 80% 风扇 PWM

热输出

22,179 BTU/小时

前面板连接和控件#

本节提供有关 DGX A100 系统的前面板、连接和控件的信息。

带挡板#

以下是带挡板的 DGX A100 系统的图像。

_images/dgxa100-with-bezel.png

控件

描述

电源按钮

按下以打开或关闭 DGX A100 系统。

  • 绿色闪烁(1 Hz):待机(BMC 已启动)

  • 绿色闪烁(4 Hz):POST 正在进行中

  • 绿色常亮:电源开启

ID 按钮

按下以使按钮蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。

还会导致设备背面的 LED 闪烁,作为维修期间的标识符。

故障 LED

琥珀色常亮:系统或组件发生故障

卸下挡板#

以下是带挡板的 DGX A100 系统的图像。

_images/dgxa100-bezel-removed.png

重要提示

有关如何正确打开或关闭系统的说明,请参阅打开和关闭 DGX A100

后面板模块#

以下图片显示了 DGX A100 上的后面板模块。

_images/rear-panel-modules.png

主板连接和控件#

以下图片显示了 DGX A100 系统中的主板连接和控件。

_images/mboard-conn-controls.png
主板控件#

控件

描述

电源按钮

按下以打开或关闭系统。

ID LED 按钮

当从设备正面按下 ID 按钮时闪烁,以帮助识别需要维修的设备。

BMC 复位按钮

按下以手动复位 BMC。

有关网络连接的详细信息,请参阅网络连接、电缆和适配器

主板托盘组件#

以下图片显示了 DGX A100 中的主板托盘组件。

_images/mboard-tray-comp.png

GPU 托盘组件#

以下图片显示了 DGX A100 系统中的 GPU 托盘组件。

_images/gpu-tray-comp.png

网络连接、电缆和适配器#

本节提供有关网络连接、电缆和适配器的信息。

网络端口#

以下图片显示了 DGX A100 系统上的网络端口。

_images/network-ports.png
网络端口映射#

插槽

PCI 总线

端口指定

RDMA

默认

可选

插槽 5 未填充

插槽 5 已填充

DGX OS 6 之前

DGX OS 6 及更高版本

0

4b:00.0

ib2

ibp75s0

enp75s0

mlx5_2

mlx5_2

1

54:00.0

ib3

ibp84s0

enp84s0

mlx5_3

mlx5_3

2

ba:00.0

ib6

ibp186s0

enp186s0

mlx5_6

mlx5_8

3

cc:00.0 [1]

ca:00.0 [2]

ib7

ibp204s0a [3]

ibp202s0b [4]

enp204s0a [5]

enp202s0b [6]

mlx5_7

mlx5_9

4 端口 0(顶部)

e1:00.0

enp225s0f0

(见注释)

mlx5_8

mlx5_10

4 端口 1(底部)

e1:00.1

enp225s0f1

(见注释)

mlx5_9

mlx5_11

5 端口 0(左侧)

61:00.0

enp97s0f0

(见注释)

mlx5_4

5 端口 1(右侧)

61:00.1

enp97s0f1

(见注释)

mlx5_5

6

0c:00.0

ib0

ibp12s0

enp12s0

mlx5_0

mlx5_0

7

12:00.0

ib1

ibp18s0

enp18s0

mlx5_1

mlx5_1

8

8d:00.1

ib4

ibp141s0

enp141s0

mlx5_4

mlx5_6

9

94:00.0

ib5

ibp148s0

enp148s0

mlx5_5

mlx5_7

LAN

e2:00.0

enp226s0

N/A

注意

enp37s0f3u1u3c2 接口或 bmc_redfish0 可被操作系统识别,并且可能会在 ifconfig 或 ip addr 等命令的响应中列出。此接口保留用于未来支持使用 Redfish API 的 BMC 通信,目前不可用于配置。

注意

“可选”列列出了将默认 InfiniBand 端口重新配置为以太网后的端口指定。对于配置了 NVIDIA ConnectX-7 网卡的 DGX A100 系统,仅支持 InfiniBand 端口指定。

从默认以太网切换到 InfiniBand 时,InfiniBand 端口指定将因对其他端口所做的更改而异。

BMC 端口 LED#

BCM RJ-45 端口有两个 LED。

左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。

右侧的 LED 为绿色,闪烁表示活动。

支持的网络电缆和适配器#

DGX A100 系统未随附网络电缆或适配器。您需要为您的网络购买支持的电缆或适配器。

ConnectX-6 或 ConnectX-7 固件确定支持哪些电缆和适配器。有关与 DGX A100 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,

  1. 请访问 Mellanox 固件版本页面。

  2. 从左侧导航菜单中,选择 DGX A100 中包含的 ConnectX 型号和相应的固件。

  3. 选择固件兼容产品

DGX A100 系统拓扑#

以下图片显示了 DGX A100 系统拓扑。

_images/dgxa100-system-topology.png

DGX OS 软件#

DGX A100 系统预装了 DGX 软件堆栈,其中包含以下组件

  • 带有支持包的 Ubuntu 服务器发行版。

  • 以下系统管理和监控软件

    • NVIDIA 系统管理 (NVSM)

      为数据中心内的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX A100 系统的健康状况。

    • 数据中心 GPU 管理 (DCGM)

      此软件支持对 GPU 进行节点范围的管理,可用于集群和数据中心级别的管理。

  • DGX A100 系统支持包。

  • NVIDIA GPU 驱动程序

  • Docker Engine

  • NVIDIA Container Toolkit

  • 适用于 Linux 的 Mellanox OpenFabrics 企业版发行版 (MOFED)

  • Mellanox 软件工具 (MST)

  • cachefilesd(用于管理缓存数据存储的守护程序)

其他文档#

本节提供其他文档的链接。

  • MIG 用户指南

    新的多实例 GPU (MIG) 功能允许将 NVIDIA A100 GPU 安全地划分为最多七个独立的 GPU 实例,用于 CUDA 应用程序。

  • NGC Container Registry for DGX

    如何访问 NGC 容器注册表,以便在您的 DGX A100 系统上使用容器化的深度学习 GPU 加速应用程序。

  • NVSM 软件用户指南

    包含有关使用 NVIDIA 系统管理软件的说明。

  • DCGM 软件用户指南

    包含有关使用数据中心 GPU 管理器软件的说明。

客户支持#

联系 NVIDIA 企业支持部门,以获得有关报告、故障排除或诊断 DGX A100 系统问题的帮助。移动 DGX A100 系统时,也请联系 NVIDIA 企业支持部门寻求帮助。

我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。