NVIDIA DGX H100/H200 系统简介#

NVIDIA DGX™ H100/H200 系统是通用系统,专为从分析到训练到推理的所有 AI 基础设施和工作负载而构建。DGX H100/H200 系统基于八个 NVIDIA H100 Tensor Core GPU 或八个 NVIDIA H200 Tensor Core GPU 构建。

_images/dgx-h100-with-bezel.png

硬件概述#

DGX H100/H200 组件描述#

NVIDIA DGX H100 (640 GB)/H200 (1,128 GB) 系统包括以下组件。

表 1. 组件描述#

组件

描述

GPU

对于 H100:8 个 NVIDIA H100 GPU,提供 640 GB 总 GPU 内存
对于 H200:8 个 NVIDIA H200 GPU,提供 1,128 GB 总 GPU 内存

CPU

2 个 Intel Xeon 8480C PCIe Gen5 CPU,每个 CPU 具有 56 个内核,2.0/2.9/3.8 GHz(基本/全核睿频/最大睿频)

NVSwitch

4 个第四代 NVLink,提供 900 GB/s GPU 到 GPU 带宽

存储(操作系统)

2 个 1.92 TB NVMe M.2 SSD (ea),RAID 1 阵列

存储(数据缓存)

8 个 3.84 TB NVMe U.2 SED (ea),RAID 0 阵列

网络(集群)卡

4 个 OSFP 端口,用于 8 个 NVIDIA® ConnectX®-7 单端口 InfiniBand 卡

每张卡提供以下速度

  • InfiniBand(默认):高达 400Gbps

  • 以太网:400GbE、200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

网络(存储和带内管理)卡

2 个 NVIDIA® ConnectX®-7 双端口以太网卡

每张卡提供以下速度

  • 以太网(默认):400GbE、200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

  • InfiniBand:高达 400Gbps

系统内存 (DIMM)

2 TB,使用 32 个 DIMM

BMC(带外系统管理)

1 GbE RJ45 接口

支持 Redfish、IPMI、SNMP、KVM 和 Web 用户界面

系统管理接口(可选)

插槽 3 中的双端口 100GbE 和 10 GbE RJ45 接口

电源

6 个 3.3 千瓦

机械规格#

表 2. 机械规格#

特性

描述

外形尺寸

8U 机架式

高度

14 英寸(356 毫米)

宽度

19 英寸(482.3 毫米)最大值

深度

35.3 英寸(897.1 毫米)最大值

系统重量

287.6 磅(130.45 公斤)最大值

电源规格#

DGX H100/H200 系统包含六个电源,具有均衡的功率负载分配。

表 3. 电源规格#

输入

每个电源的规格

200-240 伏交流电

10.2 千瓦 最大值。

3300 瓦 @ 200-240 伏,16 安培,50-60 赫兹

支持 PSU 冗余和持续运行#

该系统包括六个电源单元 (PSU),配置为 4+2 冗余。

请参考以下附加注意事项

  • 如果 PSU 发生故障,请排除故障原因并立即更换故障的 PSU。

  • 如果由于数据中心问题或配电单元故障导致三个 PSU 断电,系统将继续运行,但性能水平会降低。

  • 如果只有三个 PSU 通电,请在更换可操作的 PSU 之前关闭系统。

  • 系统仅在至少三个 PSU 运行时启动。如果运行的 PSU 少于三个,则只有 BMC 可用。

  • 请勿在 PSU 移除的情况下操作系统。

DGX H100/H200 锁定电源线规格#

DGX H100/H200 系统随附一套六 (6) 根锁定电源线,这些电源线已通过 DGX H100/H200 系统的使用认证,以确保符合法规。

警告

为避免触电或火灾,请仅使用 NVIDIA 提供的电源线将电源连接到 DGX H100/H200。有关更多详细信息,请参阅 电气预防措施

重要提示

请勿将提供的电缆用于任何其他产品或任何其他目的。

电源线规格

电源线特性

规格

电气

250VAC,20A

插头标准

C19/C20

尺寸

1200 毫米长度

合规性

电线:UL62、IEC60227

连接器/插头:IEC60320-1

使用锁定电源线#

本节提供有关如何使用锁定电源线的信息。

锁定和解锁 PDU 侧

配电单元侧

  • 要插入,请将电缆推入 PDU 插座。

  • 要移除,请将夹子压在一起,然后将电源线从插座中拔出。

    _images/locking-cord.png

锁定/解锁 PSU 侧(带扭锁机制的电源线)

电源(系统)侧 - 扭锁

  • 要插入或移除,请确保电缆已解锁,然后推/拉入/出插座。

    _images/cords.jpg

环境规格#

以下是 DGX H100/H200 系统的环境规格。

特性

规格

工作温度

5°C 至 30°C(41°F 至 86°F)

相对湿度

20% 至 80% 非冷凝

气流

1105 CFM 前到后 @ 80% 风扇 PWM

散热量

38,557 BTU/小时

前面板连接和控件#

本节提供有关 DGX H100/H200 系统的前面板、连接和控件的信息。

带挡板#

这是带挡板的 DGX H100/H200 系统的图像。

_images/dgx-h100-with-bezel.png

控件

描述

电源按钮

按下可打开或关闭 DGX H100/H200 系统。

  • 绿色闪烁(1 赫兹):待机(BMC 已启动)

  • 绿色闪烁(4 赫兹):POST 正在进行中

  • 绿色常亮:电源开启

ID 按钮

按下可使蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。

还会导致设备背面的 LED 闪烁,作为维修期间的标识符。

故障 LED

琥珀色常亮:系统或组件发生故障

移除挡板#

这是不带挡板的 DGX H100/H200 系统的图像。

_images/dgx-h100-front-view.png

重要提示

有关如何正确打开或关闭系统的说明,请参阅 首次启动设置 部分。

后面板模块#

这是一张显示 DGX H100/H200 上的后面板模块的图像。

_images/dgx-h100-rear-panel-modules.png

主板连接和控件#

这是一张显示 DGX H100/H200 系统中的主板连接和控件的图像。

_images/dgx-h100-port-view.png
表 4. 主板控件#

控件

描述

电源按钮

按下可打开或关闭系统。

ID LED 按钮

当从设备正面按下 ID 按钮时闪烁,以帮助识别需要维修的设备。

BMC 复位按钮

按下可手动复位 BMC。

有关网络连接的详细信息,请参阅 网络连接、电缆和适配器

主板托盘组件#

这是一张显示 DGX H100/H200 系统中的主板托盘组件的图像。

_images/dgx-h100-mb-tray-comp.png

GPU 托盘组件#

这是一张显示 DGX H100/H200 系统中的 GPU 托盘组件的图像。

_images/dgx-h100-gpu-tray.png

网络连接、电缆和适配器#

本节提供有关网络连接、电缆和适配器的信息。

网络端口#

这是一张显示 DGX H100/H200 系统上的网络端口的图像。

_images/dgx-h100-port-view.png
表 5. 网络端口映射#

端口指定

端口

PCI 总线

默认

可选

RDMA

OSFP1P1

dc:00.0

ibp220s0

enp220s0np0

mlx5_11

OSFP1P2

9a:00.0

ibp154s0

enp154s0np0

mlx5_6

OSFP2P1

ce:00.0

ibp206s0

enp206s0np0

mlx5_10

OSFP2P2

c0:00.0

ibp192s0

enp192s0np0

mlx5_9

OSFP3P1

4f:00.0

ibp79s0

enp79s0np0

mlx5_4

OSFP3P2

40:00.0

ibp64s0

enp64s0np0

mlx5_3

OSFP4P1

5e:00.0

ibp94s0

enp94s0np0

mlx5_5

OSFP4P2

18:00.0

ibp24s0

enp24s0np0

mlx5_0

插槽 1 P1

aa:00.0

ibp170s0f0

enp170s0f0np0

mlx5_7

插槽 1 P2

aa:00.1

enp170s0f1np1

ibp170s0f1np1

mlx5_8

插槽 2 P1

29:00.0

ibp41s0f0

enp41s0f0np0

mlx5_1

插槽 2 P2

29:00.1

enp41s0f1np1

ibp41s0f1np1

mlx5_2

插槽 3 P1

82:00.0

ens6f0

不适用

irdma0

插槽 3 P2

82:00.1

ens6f1

不适用

irdma1

板载

0b:00.0

eno3

不适用

计算和存储网络#

_images/dgx-h100-storage-nw.png

网络模块#

  • 聚合 PCIe 网络设备的新外形尺寸

  • 将四个 ConnectX-7 网络卡整合到一个设备中

  • 两个网络模块安装在转接板上

  • 转接板一端连接到 CPU,另一端连接到 GPU 托盘

  • DensiLink 电缆用于直接从 ConnectX-7 网络卡连接到系统背面的 OSFP 连接器

每根 DensiLink 电缆有两个端口,每个端口来自一个 ConnectX-7 卡

表 6. 网络模块#

端口

ConnectX 设备

网络模块/CPU

GPU

默认

RDMA

OSFP1P1

CX0

1

7

ibp220s0

mlx5_11

OSFP1P2

CX1

1

4

ibp154s0

mlx5_6

OSFP2P1

CX2

1

6

ibp206s0

mlx5_10

OSFP2P2

CX3

1

5

ibp192s0

mlx5_9

OSFP3P1

CX2

0

2

ibp79s0

mlx5_4

OSFP3P2

CX3

0

1

ibp64s0

mlx5_3

OSFP4P1

CX0

0

3

ibp94s0

mlx5_5

OSFP4P2

CX1

0

0

ibp24s0

mlx5_0

_images/network-modules-2.png

BMC 端口 LED#

BCM RJ-45 端口有两个 LED。

左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。

右侧的 LED 为绿色,闪烁表示活动。

支持的网络电缆和适配器#

DGX H100/H200 系统未随附网络电缆或适配器。您需要购买受支持的电缆或适配器用于您的网络。

ConnectX-7 固件确定支持哪些电缆和适配器。有关与 DGX H100/H200 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,

  1. 请访问 NVIDIA 适配器固件发布 页面。

  2. 单击 ConnectX 型号并选择 DGX H100/H200 系统中包含的相应固件。

  3. 从左侧的 主题 窗格中,选择“已验证和支持的电缆和交换机”主题。

DGX H100/200 系统拓扑#

下图显示了 DGX H100/H200 系统拓扑。

_images/dgx-h100-system-topology.png

DGX 操作系统软件#

DGX H100/H200 系统预装了 DGX 软件堆栈,其中包含以下组件

  • 带有支持包的 Ubuntu 服务器发行版。

  • 以下系统管理和监控软件

    • NVIDIA 系统管理 (NVSM)

      为数据中心内的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX H100/H200 系统的健康状况。

    • 数据中心 GPU 管理 (DCGM)

      该软件支持对 GPU 进行节点范围的管理,可用于集群和数据中心级别的管理。

  • DGX H100/H200 系统支持包。

  • NVIDIA GPU 驱动程序

  • Docker 引擎

  • NVIDIA 容器工具包

  • NVIDIA Networking OpenFabrics 企业版 Linux 发行版 (MOFED)

  • NVIDIA Networking Software Tools (MST)

  • cachefilesd(用于管理缓存数据存储的守护程序)

客户支持#

如需报告、排除故障或诊断 DGX H100/H200 系统的问题方面的帮助,请联系 NVIDIA 企业支持。如需移动 DGX H100/H200 系统的帮助,也请联系 NVIDIA 企业支持。

我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。