NVIDIA DGX B200 系统简介#

NVIDIA DGX™ B200 系统是通用的系统,专为从分析到训练到推理的所有 AI 基础设施和工作负载而构建。该系统基于八个 NVIDIA B200 Tensor Core GPU 构建。

_images/dgx-b200-with-bezel.png

硬件概述#

DGX B200 组件描述#

NVIDIA DGX B200 (1,440 GB) 系统包括以下组件。

组件描述#

组件

描述

GPU

8 个 NVIDIA B200 GPU,提供总共 1,440 GB 的 GPU 内存

CPU

2 个 Intel Xeon 8570 PCIe Gen5 CPU,每个 CPU 具有 56 个内核,2.1/4 GHz(基本/最大睿频)

NVSwitch

2 个第五代 NVLink 交换机,提供 14.4 TB/s 的聚合带宽

存储 (OS)

2 个 1.92 TB NVMe M.2 SSD (ea),采用 RAID 1 阵列

存储 (数据缓存)

8 个 3.84 TB NVMe U.2 SED (ea),采用 RAID 0 阵列

网络(集群)卡

4 个 OSFP 端口,用于 8 个 NVIDIA® ConnectX®-7 单端口卡

每张卡提供以下速度

  • InfiniBand(默认):高达 400Gbps

  • 以太网:400GbE、200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

网络(存储和带内管理)卡

2 个 NVIDIA® BlueField®-3 DPU 双端口卡

每张卡提供以下速度

  • 以太网(1 个端口):400GbE、200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

  • InfiniBand(1 个端口):高达 400Gbps

系统内存 (DIMM)

2 TB,使用 32 个 DIMM(可升级至 4 TB)

BMC(带外系统管理)

1 GbE RJ45 接口

支持 Redfish、IPMI、SNMP、KVM 和 Web 用户界面

系统管理接口(可选)

插槽 3 中的双端口 100GbE 和 10 GbE RJ45 接口

电源

6 个 3.3 kW

机械规格#

机械规格#

特性

描述

外形尺寸

10U 机架式

高度

17.5 英寸(444 毫米)

宽度

19 英寸(482.3 毫米)最大值

深度

35.3 英寸(897.1 毫米)最大值

系统重量

313.9 磅(142.4 千克)最大值

电源规格#

DGX B200 系统包含六个电源,功率负载均衡分配。

电源规格#

输入

每个电源的规格

200-240 伏交流电

14.3 kW 最大值

3,300 W @ 200-240 V, 16 A, 50-60 Hz

支持 PSU 冗余和持续运行#

系统包括六个电源单元 (PSU),配置为 5+1 冗余。

请参考以下附加注意事项

  • 如果 PSU 发生故障,请排除故障原因并立即更换故障的 PSU。

  • 如果由于数据中心问题或配电单元故障导致两个 PSU 断电,系统将继续运行,但性能会降低。

  • 如果只有两个 PSU 有电,请在更换可运行的 PSU 之前关闭系统。

  • 系统仅在至少三个 PSU 运行时才能启动。如果运行的 PSU 少于三个,则只有 BMC 可用。

  • 请勿在 PSU 卸载的情况下操作系统。

DGX B200 锁定电源线规格#

DGX B200 系统随附一套六 (6) 根锁定电源线,这些电源线经过认证可与 DGX B200 系统一起使用,以确保符合法规。

警告

为避免电击或火灾,请仅使用 NVIDIA 提供的电源线将电源连接到 DGX B200。有关更多信息,请参阅 电气预防措施

重要提示

请勿将提供的电缆用于任何其他产品或任何其他目的。

电源线规格

电源线特性

规格

电气

250VAC,20A

插头标准

C19/C20

尺寸

1200 毫米长度

合规性

线缆:UL62、IEC60227

连接器/插头:IEC60320-1

使用锁定电源线#

本节提供有关如何使用锁定电源线的信息。

锁定和解锁 PDU 侧

配电单元侧

  • 要插入,请将电缆推入 PDU 插座。

  • 要移除,请将夹子压在一起并将电源线从插座中拔出。

    _images/locking-cord.png

锁定/解锁 PSU 侧(带扭锁机构的电源线)

电源(系统)侧 - 扭锁

  • 要插入或移除,请确保电缆已解锁,然后将电缆推入/拉出插座。

    _images/cords.jpg

环境规格#

以下是您的 DGX B200 系统的环境规格。

特性

规格

工作温度

10°C 至 35°C(50°F 至 95°F)

相对湿度

20% 至 80% 非冷凝

气流

1,550 CFM

散热量

48,794 BTU/小时

前面板连接和控件#

本节提供有关 DGX B200 系统的前面板、连接和控件的信息。

带挡板#

以下是带挡板的 DGX B200 系统的图像。

_images/dgx-b200-with-bezel.png

控件

描述

电源按钮

按下可打开或关闭 DGX B200 系统。

  • 绿色闪烁(1 Hz):待机(BMC 已启动)

  • 绿色闪烁(4 Hz):正在进行 POST

  • 绿色常亮:电源开启

ID 按钮

按下可使蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。

它还会导致设备背面的 LED 闪烁,作为维修期间的标识符。

故障 LED

琥珀色常亮:系统或组件发生故障

卸下挡板#

以下是卸下挡板的 DGX B200 系统的图像。

_images/dgx-b200-front-view.png

重要提示

有关如何正确打开或关闭系统的说明,请参阅 首次启动设置 部分。

后面板模块#

以下图像显示了 DGX B200 上的实际面板模块。

_images/dgx-b200-rear-panel-modules.png

主板连接和控件#

以下图像显示了 DGX B200 系统中的主板连接和控件。

_images/dgx-b200-port-view.png
主板控件#

控件

描述

电源按钮

按下可打开或关闭系统。

ID LED 按钮

从设备正面按下 ID 按钮时,它会闪烁,以帮助识别需要维修的设备。

BMC 复位按钮

按下可手动复位 BMC。

有关网络连接的详细信息,请参阅 网络连接、电缆和适配器

主板托架组件#

以下图像显示了 DGX B200 系统中的主板托架组件。

_images/dgx-b200-mb-tray-comp.png

GPU 托架组件#

以下是 DGX B200 系统中 GPU 托架组件的图像。

_images/dgx-b200-gpu-tray.png

网络连接、电缆和适配器#

本节提供有关网络连接、电缆和适配器的信息。

网络端口#

以下图像显示了 DGX B200 系统上的网络端口。

_images/dgx-b200-port-view.png
网络端口映射#

端口名称

端口

PCI 总线

默认

可选

RDMA

OSFP1P1

dc:00.0

ibp220s0

enp220s0np0

mlx5_15

OSFP1P2

9a:00.0

ibp154s0

enp154s0np0

mlx5_10

OSFP2P1

ce:00.0

ibp206s0

enp206s0np0

mlx5_14

OSFP2P2

c0:00.0

ibp192s0

enp192s0np0

mlx5_13

OSFP3P1

4f:00.0

ibp79s0

enp79s0np0

mlx5_8

OSFP3P2

40:00.0

ibp64s0

enp64s0np0

mlx5_7

OSFP4P1

5e:00.0

ibp94s0

enp94s0np0

mlx5_9

OSFP4P2

18:00.0

ibp24s0

enp24s0np0

mlx5_4

插槽 1 P1

aa:00.0

ibp170s0f0

enp170s0f0np0

mlx5_11

插槽 1 P2

aa:00.1

enp170s0f1np1

ibp170s0f1

mlx5_12

插槽 2 P1

29:00.0

ibp41s0f0

enp41s0f0np0

mlx5_5

插槽 2 P2

29:00.1

enp41s0f1np1

ibp41s0f1

mlx5_6

插槽 3 P1

82:00.0

ens6f0

不适用

irdma0

插槽 3 P2

82:00.1

ens6f1

不适用

irdma1

板载

0b:00.0

eno3

不适用

计算和存储网络#

_images/dgx-b200-storage-nw.png

网络模块#

  • 用于聚合 PCIe 网络设备的新外形尺寸

  • 将四个 ConnectX-7 网络卡整合到一个设备中

DGX B200 系统在两个网络模块托架上有八个 ConnectX-7 网络卡。内部 DensiLink 电缆将双端口 OSFP 接口连接到各个 ConnectX-7 网络卡。

网络模块#

端口

ConnectX 设备

网络模块/CPU

GPU

默认

RDMA

OSFP1P1

CX0

1

7

ibp220s0

mlx5_15

OSFP1P2

CX1

1

4

ibp154s0

mlx5_10

OSFP2P1

CX2

1

6

ibp206s0

mlx5_14

OSFP2P2

CX3

1

5

ibp192s0

mlx5_13

OSFP3P1

CX2

0

2

ibp79s0

mlx5_8

OSFP3P2

CX3

0

1

ibp64s0

mlx5_7

OSFP4P1

CX0

0

3

ibp94s0

mlx5_9

OSFP4P2

CX1

0

0

ibp24s0

mlx5_4

_images/dgx-b200-network-modules.png

BMC 端口 LED#

BCM RJ-45 端口有两个 LED。

左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。

右侧的 LED 为绿色,闪烁表示活动。

支持的网络电缆和适配器#

DGX B200 系统未随附网络电缆或适配器。您需要购买支持的电缆或适配器用于您的网络。

ConnectX-7 固件决定了支持哪些电缆和适配器。有关与 DGX B200 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,

  1. 请访问 NVIDIA 适配器固件版本 页面。

  2. 单击 ConnectX 型号并选择 DGX B200 系统中包含的相应固件。

  3. 从左侧的 主题 窗格中,选择“已验证和支持的电缆和交换机”主题。

要将 BlueField-3 DPU 配置为 NIC 模式,请按照 BlueField-3 的 NIC 模式 中的说明进行操作。

DGX B200 系统拓扑#

下图显示了 DGX B200 系统拓扑。

_images/dgx-b200-system-topology.png

DGX OS 软件#

DGX B200 系统预装了 DGX 软件堆栈,其中包含以下组件

  • 使用优化的 Linux 内核和支持包的 Ubuntu 服务器发行版

  • 以下系统管理和监控软件

    • NVIDIA 系统管理 (NVSM)

      为数据中心中的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX B200 系统的健康状况。

    • 数据中心 GPU 管理 (DCGM)

      此软件支持对 GPU 进行节点范围的管理,并且可以用于集群和数据中心级别的管理。

  • DGX B200 系统支持包

  • NVIDIA GPU 驱动程序,包括 NVIDIA CUDA

  • Docker Engine

  • NVIDIA Container Toolkit

  • 适用于 Linux 的 NVIDIA Networking OpenFabrics 企业版发行版 (DOCA-OFED)

  • NVIDIA Networking 软件工具 (MST)

  • cachefilesd(用于管理缓存数据存储的守护程序)

客户支持#

如需报告、排除故障或诊断 DGX B200 系统的问题方面的帮助,请联系 NVIDIA 企业支持。您也可以联系 NVIDIA 企业支持以获得移动 DGX B200 系统的帮助。

我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。