NVIDIA DGX H100/H200 系统简介#
NVIDIA DGX™ H100/H200 系统是通用系统,专为从分析到训练到推理的所有 AI 基础设施和工作负载而构建。DGX H100/H200 系统基于八个 NVIDIA H100 Tensor Core GPU 或八个 NVIDIA H200 Tensor Core GPU 构建。

硬件概述#
DGX H100/H200 组件描述#
NVIDIA DGX H100 (640 GB)/H200 (1,128 GB) 系统包括以下组件。
组件 |
描述 |
---|---|
GPU |
对于 H100:8 个 NVIDIA H100 GPU,提供 640 GB 总 GPU 内存
对于 H200:8 个 NVIDIA H200 GPU,提供 1,128 GB 总 GPU 内存
|
CPU |
2 个 Intel Xeon 8480C PCIe Gen5 CPU,每个 CPU 具有 56 个内核,2.0/2.9/3.8 GHz(基本/全核睿频/最大睿频) |
NVSwitch |
4 个第四代 NVLink,提供 900 GB/s GPU 到 GPU 带宽 |
存储(操作系统) |
2 个 1.92 TB NVMe M.2 SSD (ea),RAID 1 阵列 |
存储(数据缓存) |
8 个 3.84 TB NVMe U.2 SED (ea),RAID 0 阵列 |
网络(集群)卡 |
4 个 OSFP 端口,用于 8 个 NVIDIA® ConnectX®-7 单端口 InfiniBand 卡 每张卡提供以下速度
|
网络(存储和带内管理)卡 |
2 个 NVIDIA® ConnectX®-7 双端口以太网卡 每张卡提供以下速度
|
系统内存 (DIMM) |
2 TB,使用 32 个 DIMM |
BMC(带外系统管理) |
1 GbE RJ45 接口 支持 Redfish、IPMI、SNMP、KVM 和 Web 用户界面 |
系统管理接口(可选) |
插槽 3 中的双端口 100GbE 和 10 GbE RJ45 接口 |
电源 |
6 个 3.3 千瓦 |
机械规格#
特性 |
描述 |
---|---|
外形尺寸 |
8U 机架式 |
高度 |
14 英寸(356 毫米) |
宽度 |
19 英寸(482.3 毫米)最大值 |
深度 |
35.3 英寸(897.1 毫米)最大值 |
系统重量 |
287.6 磅(130.45 公斤)最大值 |
电源规格#
DGX H100/H200 系统包含六个电源,具有均衡的功率负载分配。
输入 |
每个电源的规格 |
|
---|---|---|
200-240 伏交流电 |
10.2 千瓦 最大值。 |
3300 瓦 @ 200-240 伏,16 安培,50-60 赫兹 |
支持 PSU 冗余和持续运行#
该系统包括六个电源单元 (PSU),配置为 4+2 冗余。
请参考以下附加注意事项
如果 PSU 发生故障,请排除故障原因并立即更换故障的 PSU。
如果由于数据中心问题或配电单元故障导致三个 PSU 断电,系统将继续运行,但性能水平会降低。
如果只有三个 PSU 通电,请在更换可操作的 PSU 之前关闭系统。
系统仅在至少三个 PSU 运行时启动。如果运行的 PSU 少于三个,则只有 BMC 可用。
请勿在 PSU 移除的情况下操作系统。
DGX H100/H200 锁定电源线规格#
DGX H100/H200 系统随附一套六 (6) 根锁定电源线,这些电源线已通过 DGX H100/H200 系统的使用认证,以确保符合法规。
警告
为避免触电或火灾,请仅使用 NVIDIA 提供的电源线将电源连接到 DGX H100/H200。有关更多详细信息,请参阅 电气预防措施。
重要提示
请勿将提供的电缆用于任何其他产品或任何其他目的。
电源线规格
电源线特性 |
规格 |
---|---|
电气 |
250VAC,20A |
插头标准 |
C19/C20 |
尺寸 |
1200 毫米长度 |
合规性 |
电线:UL62、IEC60227 连接器/插头:IEC60320-1 |
使用锁定电源线#
本节提供有关如何使用锁定电源线的信息。
锁定和解锁 PDU 侧
配电单元侧
要插入,请将电缆推入 PDU 插座。
要移除,请将夹子压在一起,然后将电源线从插座中拔出。
锁定/解锁 PSU 侧(带扭锁机制的电源线)
电源(系统)侧 - 扭锁
要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。
环境规格#
以下是 DGX H100/H200 系统的环境规格。
特性 |
规格 |
---|---|
工作温度 |
5°C 至 30°C(41°F 至 86°F) |
相对湿度 |
20% 至 80% 非冷凝 |
气流 |
1105 CFM 前到后 @ 80% 风扇 PWM |
散热量 |
38,557 BTU/小时 |
前面板连接和控件#
本节提供有关 DGX H100/H200 系统的前面板、连接和控件的信息。
带挡板#
这是带挡板的 DGX H100/H200 系统的图像。

控件 |
描述 |
---|---|
电源按钮 |
按下可打开或关闭 DGX H100/H200 系统。
|
ID 按钮 |
按下可使蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。 还会导致设备背面的 LED 闪烁,作为维修期间的标识符。 |
故障 LED |
琥珀色常亮:系统或组件发生故障 |
移除挡板#
这是不带挡板的 DGX H100/H200 系统的图像。

重要提示
有关如何正确打开或关闭系统的说明,请参阅 首次启动设置 部分。
后面板模块#
这是一张显示 DGX H100/H200 上的后面板模块的图像。

主板连接和控件#
这是一张显示 DGX H100/H200 系统中的主板连接和控件的图像。

控件 |
描述 |
---|---|
电源按钮 |
按下可打开或关闭系统。 |
ID LED 按钮 |
当从设备正面按下 ID 按钮时闪烁,以帮助识别需要维修的设备。 |
BMC 复位按钮 |
按下可手动复位 BMC。 |
有关网络连接的详细信息,请参阅 网络连接、电缆和适配器。
主板托盘组件#
这是一张显示 DGX H100/H200 系统中的主板托盘组件的图像。

GPU 托盘组件#
这是一张显示 DGX H100/H200 系统中的 GPU 托盘组件的图像。

网络连接、电缆和适配器#
本节提供有关网络连接、电缆和适配器的信息。
网络端口#
这是一张显示 DGX H100/H200 系统上的网络端口的图像。

端口指定 |
||||
---|---|---|---|---|
端口 |
PCI 总线 |
默认 |
可选 |
RDMA |
OSFP1P1 |
dc:00.0 |
ibp220s0 |
enp220s0np0 |
mlx5_11 |
OSFP1P2 |
9a:00.0 |
ibp154s0 |
enp154s0np0 |
mlx5_6 |
OSFP2P1 |
ce:00.0 |
ibp206s0 |
enp206s0np0 |
mlx5_10 |
OSFP2P2 |
c0:00.0 |
ibp192s0 |
enp192s0np0 |
mlx5_9 |
OSFP3P1 |
4f:00.0 |
ibp79s0 |
enp79s0np0 |
mlx5_4 |
OSFP3P2 |
40:00.0 |
ibp64s0 |
enp64s0np0 |
mlx5_3 |
OSFP4P1 |
5e:00.0 |
ibp94s0 |
enp94s0np0 |
mlx5_5 |
OSFP4P2 |
18:00.0 |
ibp24s0 |
enp24s0np0 |
mlx5_0 |
插槽 1 P1 |
aa:00.0 |
ibp170s0f0 |
enp170s0f0np0 |
mlx5_7 |
插槽 1 P2 |
aa:00.1 |
enp170s0f1np1 |
ibp170s0f1np1 |
mlx5_8 |
插槽 2 P1 |
29:00.0 |
ibp41s0f0 |
enp41s0f0np0 |
mlx5_1 |
插槽 2 P2 |
29:00.1 |
enp41s0f1np1 |
ibp41s0f1np1 |
mlx5_2 |
插槽 3 P1 |
82:00.0 |
ens6f0 |
不适用 |
irdma0 |
插槽 3 P2 |
82:00.1 |
ens6f1 |
不适用 |
irdma1 |
板载 |
0b:00.0 |
eno3 |
不适用 |
计算和存储网络#

网络模块#
聚合 PCIe 网络设备的新外形尺寸
将四个 ConnectX-7 网络卡整合到一个设备中
两个网络模块安装在转接板上
转接板一端连接到 CPU,另一端连接到 GPU 托盘
DensiLink 电缆用于直接从 ConnectX-7 网络卡连接到系统背面的 OSFP 连接器
每根 DensiLink 电缆有两个端口,每个端口来自一个 ConnectX-7 卡
端口 |
ConnectX 设备 |
网络模块/CPU |
GPU |
默认 |
RDMA |
---|---|---|---|---|---|
OSFP1P1 |
CX0 |
1 |
7 |
ibp220s0 |
mlx5_11 |
OSFP1P2 |
CX1 |
1 |
4 |
ibp154s0 |
mlx5_6 |
OSFP2P1 |
CX2 |
1 |
6 |
ibp206s0 |
mlx5_10 |
OSFP2P2 |
CX3 |
1 |
5 |
ibp192s0 |
mlx5_9 |
OSFP3P1 |
CX2 |
0 |
2 |
ibp79s0 |
mlx5_4 |
OSFP3P2 |
CX3 |
0 |
1 |
ibp64s0 |
mlx5_3 |
OSFP4P1 |
CX0 |
0 |
3 |
ibp94s0 |
mlx5_5 |
OSFP4P2 |
CX1 |
0 |
0 |
ibp24s0 |
mlx5_0 |

BMC 端口 LED#
BCM RJ-45 端口有两个 LED。
左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。
右侧的 LED 为绿色,闪烁表示活动。
支持的网络电缆和适配器#
DGX H100/H200 系统未随附网络电缆或适配器。您需要购买受支持的电缆或适配器用于您的网络。
ConnectX-7 固件确定支持哪些电缆和适配器。有关与 DGX H100/H200 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,
请访问 NVIDIA 适配器固件发布 页面。
单击 ConnectX 型号并选择 DGX H100/H200 系统中包含的相应固件。
从左侧的 主题 窗格中,选择“已验证和支持的电缆和交换机”主题。
DGX H100/200 系统拓扑#
下图显示了 DGX H100/H200 系统拓扑。

DGX 操作系统软件#
DGX H100/H200 系统预装了 DGX 软件堆栈,其中包含以下组件
带有支持包的 Ubuntu 服务器发行版。
以下系统管理和监控软件
NVIDIA 系统管理 (NVSM)
为数据中心内的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX H100/H200 系统的健康状况。
数据中心 GPU 管理 (DCGM)
该软件支持对 GPU 进行节点范围的管理,可用于集群和数据中心级别的管理。
DGX H100/H200 系统支持包。
NVIDIA GPU 驱动程序
Docker 引擎
NVIDIA 容器工具包
NVIDIA Networking OpenFabrics 企业版 Linux 发行版 (MOFED)
NVIDIA Networking Software Tools (MST)
cachefilesd(用于管理缓存数据存储的守护程序)
客户支持#
如需报告、排除故障或诊断 DGX H100/H200 系统的问题方面的帮助,请联系 NVIDIA 企业支持。如需移动 DGX H100/H200 系统的帮助,也请联系 NVIDIA 企业支持。
对于合同企业支持问题,您可以发送电子邮件至 enterprisesupport@nvidia.com。
有关如何获得支持的更多详细信息,请访问 NVIDIA 企业支持。
我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。