NVIDIA DGX A100 系统简介#
NVIDIA DGX™ A100 系统是通用系统,专为所有 AI 基础设施和工作负载而构建,从分析到训练再到推理。该系统基于八个 NVIDIA A100 Tensor Core GPU 构建。

本文档适用于 DGX A100 系统的用户和管理员。
硬件概述#
本节提供有关 DGX A100 中硬件的信息。
DGX A100 型号和组件描述#
NVIDIA DGX A100 系统有两个型号:NVIDIA DGX A100 640GB 系统和 NVIDIA DGX A100 320GB 系统。
型号区分#
组件 |
NVIDIA DGX A100 640GB 系统 |
NVIDIA DGX A100 320GB 系统 |
---|---|---|
GPU |
8 个 NVIDIA A100 GPU 第三代 NVLink |
8 个 NVIDIA A100 GPU 第三代 NVLink |
GPU 总内存 |
640 GB |
320 GB |
NVIDIA NVSwitch |
数量 6 第二代(比第一代快 2 倍) |
数量 6 第二代(比第一代快 2 倍) |
网络 |
最多 10 个(出厂配置) NVIDIA ConnectX-6 或 ConnectX-7 InfiniBand/200 Gb/s 以太网 |
最多 9 个(出厂配置) NVIDIA ConnectX-6 或 ConnectX-7 IB/200 Gb/s 以太网 (可选附加组件:第二个双端口 200 Gb/s 以太网) |
CPU |
2 个 AMD Rome,总共 128 核 |
2 个 AMD Rome,总共 128 核 |
系统内存 |
2 TB(出厂配置) |
1 TB(出厂配置) (可选附加组件:1 TB 以获得最大 2 TB。) |
存储 |
30 TB(出厂配置) U.2 NVMe 硬盘 (可选硬盘升级到 60 TB) |
15 TB(出厂配置) U.2 NVMe 硬盘 (可选附加组件:15 TB 以获得最大 30 TB。 可选硬盘升级到 60 TB) |
组件描述#
组件 |
描述 |
---|---|
GPU |
NVIDIA A100 GPU |
CPU |
2 个 AMD EPYC 7742 CPU,带 64 核 |
NVSwitch |
600 GB/s GPU 到 GPU 带宽 |
存储 (OS) |
1.92 TB NVMe M.2 SSD (ea),采用 RAID 1 阵列 |
存储(数据缓存) |
3.84 TB NVMe U.2 SED (ea),采用 RAID 0 阵列 (可选 7.68 TB NVMe U.2. SED) |
网络(集群)卡 |
NVIDIA ConnectX-6 或 ConnectX-7 单端口 InfiniBand(默认):高达 200Gbps 以太网:200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE 注意 NVIDIA ConnectX-7 单端口网卡仅支持 InfiniBand 协议。 |
网络(存储)卡 |
NVIDIA ConnectX-6 或 ConnectX-7 双端口以太网(默认):200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE InfiniBand:高达 200Gbps |
系统内存 (DIMM) |
每 16 个 DIMM 1 TB |
BMC(带外系统管理) |
1 GbE RJ45 接口 支持 IPMI、SNMP、KVM 和 Web 用户界面以及 Redfish API。 |
带内系统管理 |
1 GbE RJ45 接口 |
电源 |
3 千瓦 |
机械规格#
以下是有关机械规格的一些信息。
特性 |
描述 |
---|---|
外形尺寸 |
6U 机架式 |
高度 |
10.4 英寸(264 毫米) |
宽度 |
19 英寸(482.3 毫米)最大 |
深度 |
35.3 英寸(897.1 毫米)最大 |
系统重量 |
271.5 磅(123.16 公斤)最大 |
电源规格#
DGX A100 系统包含六个电源,电源负载均衡分布。
输入 |
每个电源的规格 |
|
---|---|---|
200-240 伏交流电 |
最大 6.5 千瓦 |
3000 瓦 @ 200-240 伏,16 安,50-60 赫兹 |
支持 N+N 冗余#
DGX A100 包括六个电源单元 (PSU),配置为 3+3 冗余。如果三个 PSU 发生故障,系统将继续以全功率运行,其余三个 PSU 供电。
注意
如果只有两个 PSU 工作,GPU 将不可用,但服务器仍将启动。这允许您从缓存 SSD 收集调试或系统日志或其他数据。
如果只有一个 PSU 工作,请排除其他 PSU 电源丢失的原因并进行更正。如果需要更换故障 PSU,请关闭系统并安装工作 PSU。
DGX A100 锁定电源线规格#
DGX A100 随附一套六 (6) 根锁定电源线,这些电源线经过认证可与 DGX A100 一起使用,以确保符合法规。
以下锁定电源线类型已获批准
PSU 侧的开关锁定
PSU 侧的扭锁
警告
为避免触电或火灾,请仅使用 NVIDIA 提供的电源线连接 DGX A100 的电源。有关更多详细信息,请参阅电气预防措施。
重要提示
请勿将提供的电缆用于任何其他产品或任何其他目的。
电源线规格#
电源线特性 |
规格 |
---|---|
电气 |
250VAC,16A |
插头标准 |
C19/C20 |
尺寸 |
1200 毫米长度 |
合规性 |
电线:UL62、IEC60227 连接器/插头:IEC60320-1 |
使用锁定电源线#
本节提供有关如何使用锁定电源线的信息。
锁定和解锁 PDU 侧#
配电单元侧
要插入,请将电缆推入 PDU 插座。
要移除,请将夹子压在一起,然后将电源线从插座中拔出。

锁定/解锁 PSU 侧(带开关锁定机制的电源线)#
电源(系统)侧 - 开关锁定
要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。

锁定/解锁 PSU 侧(带扭锁机制的电源线)#
电源(系统)侧 - 扭锁
要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。

环境规格#
以下是 DGX A100 系统的环境规格。
特性 |
规格 |
---|---|
运行温度 |
5°C 至 30°C(41°F 至 86°F) |
相对湿度 |
20% 至 80% 无冷凝 |
气流 |
840 CFM @ 80% 风扇 PWM |
热输出 |
22,179 BTU/小时 |
前面板连接和控件#
本节提供有关 DGX A100 系统的前面板、连接和控件的信息。
带挡板#
以下是带挡板的 DGX A100 系统的图像。

控件 |
描述 |
---|---|
电源按钮 |
按下以打开或关闭 DGX A100 系统。
|
ID 按钮 |
按下以使按钮蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。 还会导致设备背面的 LED 闪烁,作为维修期间的标识符。 |
故障 LED |
琥珀色常亮:系统或组件发生故障 |
卸下挡板#
以下是带挡板的 DGX A100 系统的图像。

重要提示
有关如何正确打开或关闭系统的说明,请参阅打开和关闭 DGX A100。
后面板模块#
以下图片显示了 DGX A100 上的后面板模块。

主板连接和控件#
以下图片显示了 DGX A100 系统中的主板连接和控件。

控件 |
描述 |
---|---|
电源按钮 |
按下以打开或关闭系统。 |
ID LED 按钮 |
当从设备正面按下 ID 按钮时闪烁,以帮助识别需要维修的设备。 |
BMC 复位按钮 |
按下以手动复位 BMC。 |
有关网络连接的详细信息,请参阅网络连接、电缆和适配器。
主板托盘组件#
以下图片显示了 DGX A100 中的主板托盘组件。

GPU 托盘组件#
以下图片显示了 DGX A100 系统中的 GPU 托盘组件。

网络连接、电缆和适配器#
本节提供有关网络连接、电缆和适配器的信息。
网络端口#
以下图片显示了 DGX A100 系统上的网络端口。

插槽 |
PCI 总线 |
端口指定 |
RDMA |
|||
---|---|---|---|---|---|---|
默认 |
可选 |
插槽 5 未填充 |
插槽 5 已填充 |
|||
DGX OS 6 之前 |
DGX OS 6 及更高版本 |
|||||
0 |
4b:00.0 |
ib2 |
ibp75s0 |
enp75s0 |
mlx5_2 |
mlx5_2 |
1 |
54:00.0 |
ib3 |
ibp84s0 |
enp84s0 |
mlx5_3 |
mlx5_3 |
2 |
ba:00.0 |
ib6 |
ibp186s0 |
enp186s0 |
mlx5_6 |
mlx5_8 |
3 |
cc:00.0 [1] ca:00.0 [2] |
ib7 |
ibp204s0a [3] ibp202s0b [4] |
enp204s0a [5] enp202s0b [6] |
mlx5_7 |
mlx5_9 |
4 端口 0(顶部) |
e1:00.0 |
enp225s0f0 |
(见注释) |
mlx5_8 |
mlx5_10 |
|
4 端口 1(底部) |
e1:00.1 |
enp225s0f1 |
(见注释) |
mlx5_9 |
mlx5_11 |
|
5 端口 0(左侧) |
61:00.0 |
enp97s0f0 |
(见注释) |
mlx5_4 |
||
5 端口 1(右侧) |
61:00.1 |
enp97s0f1 |
(见注释) |
mlx5_5 |
||
6 |
0c:00.0 |
ib0 |
ibp12s0 |
enp12s0 |
mlx5_0 |
mlx5_0 |
7 |
12:00.0 |
ib1 |
ibp18s0 |
enp18s0 |
mlx5_1 |
mlx5_1 |
8 |
8d:00.1 |
ib4 |
ibp141s0 |
enp141s0 |
mlx5_4 |
mlx5_6 |
9 |
94:00.0 |
ib5 |
ibp148s0 |
enp148s0 |
mlx5_5 |
mlx5_7 |
LAN |
e2:00.0 |
enp226s0 |
N/A |
注意
enp37s0f3u1u3c2
接口或 bmc_redfish0
可被操作系统识别,并且可能会在 ifconfig 或 ip addr 等命令的响应中列出。此接口保留用于未来支持使用 Redfish API 的 BMC 通信,目前不可用于配置。
注意
“可选”列列出了将默认 InfiniBand 端口重新配置为以太网后的端口指定。对于配置了 NVIDIA ConnectX-7 网卡的 DGX A100 系统,仅支持 InfiniBand 端口指定。
从默认以太网切换到 InfiniBand 时,InfiniBand 端口指定将因对其他端口所做的更改而异。
BMC 端口 LED#
BCM RJ-45 端口有两个 LED。
左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。
右侧的 LED 为绿色,闪烁表示活动。
支持的网络电缆和适配器#
DGX A100 系统未随附网络电缆或适配器。您需要为您的网络购买支持的电缆或适配器。
ConnectX-6 或 ConnectX-7 固件确定支持哪些电缆和适配器。有关与 DGX A100 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,
请访问 Mellanox 固件版本页面。
从左侧导航菜单中,选择 DGX A100 中包含的 ConnectX 型号和相应的固件。
选择固件兼容产品。
DGX A100 系统拓扑#
以下图片显示了 DGX A100 系统拓扑。

DGX OS 软件#
DGX A100 系统预装了 DGX 软件堆栈,其中包含以下组件
带有支持包的 Ubuntu 服务器发行版。
以下系统管理和监控软件
NVIDIA 系统管理 (NVSM)
为数据中心内的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX A100 系统的健康状况。
数据中心 GPU 管理 (DCGM)
此软件支持对 GPU 进行节点范围的管理,可用于集群和数据中心级别的管理。
DGX A100 系统支持包。
NVIDIA GPU 驱动程序
Docker Engine
NVIDIA Container Toolkit
适用于 Linux 的 Mellanox OpenFabrics 企业版发行版 (MOFED)
Mellanox 软件工具 (MST)
cachefilesd(用于管理缓存数据存储的守护程序)
其他文档#
本节提供其他文档的链接。
-
新的多实例 GPU (MIG) 功能允许将 NVIDIA A100 GPU 安全地划分为最多七个独立的 GPU 实例,用于 CUDA 应用程序。
NGC Container Registry for DGX
如何访问 NGC 容器注册表,以便在您的 DGX A100 系统上使用容器化的深度学习 GPU 加速应用程序。
-
包含有关使用 NVIDIA 系统管理软件的说明。
-
包含有关使用数据中心 GPU 管理器软件的说明。
客户支持#
联系 NVIDIA 企业支持部门,以获得有关报告、故障排除或诊断 DGX A100 系统问题的帮助。移动 DGX A100 系统时,也请联系 NVIDIA 企业支持部门寻求帮助。
对于签约企业支持问题,您可以发送电子邮件至 enterprisesupport@nvidia.com。
有关如何获得支持的更多详细信息,请访问 NVIDIA 企业支持。
我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。