NVIDIA DGX B200 系统简介#
NVIDIA DGX™ B200 系统是通用的系统,专为从分析到训练到推理的所有 AI 基础设施和工作负载而构建。该系统基于八个 NVIDIA B200 Tensor Core GPU 构建。

硬件概述#
DGX B200 组件描述#
NVIDIA DGX B200 (1,440 GB) 系统包括以下组件。
组件 |
描述 |
---|---|
GPU |
8 个 NVIDIA B200 GPU,提供总共 1,440 GB 的 GPU 内存 |
CPU |
2 个 Intel Xeon 8570 PCIe Gen5 CPU,每个 CPU 具有 56 个内核,2.1/4 GHz(基本/最大睿频) |
NVSwitch |
2 个第五代 NVLink 交换机,提供 14.4 TB/s 的聚合带宽 |
存储 (OS) |
2 个 1.92 TB NVMe M.2 SSD (ea),采用 RAID 1 阵列 |
存储 (数据缓存) |
8 个 3.84 TB NVMe U.2 SED (ea),采用 RAID 0 阵列 |
网络(集群)卡 |
4 个 OSFP 端口,用于 8 个 NVIDIA® ConnectX®-7 单端口卡 每张卡提供以下速度
|
网络(存储和带内管理)卡 |
2 个 NVIDIA® BlueField®-3 DPU 双端口卡 每张卡提供以下速度
|
系统内存 (DIMM) |
2 TB,使用 32 个 DIMM(可升级至 4 TB) |
BMC(带外系统管理) |
1 GbE RJ45 接口 支持 Redfish、IPMI、SNMP、KVM 和 Web 用户界面 |
系统管理接口(可选) |
插槽 3 中的双端口 100GbE 和 10 GbE RJ45 接口 |
电源 |
6 个 3.3 kW |
机械规格#
特性 |
描述 |
---|---|
外形尺寸 |
10U 机架式 |
高度 |
17.5 英寸(444 毫米) |
宽度 |
19 英寸(482.3 毫米)最大值 |
深度 |
35.3 英寸(897.1 毫米)最大值 |
系统重量 |
313.9 磅(142.4 千克)最大值 |
电源规格#
DGX B200 系统包含六个电源,功率负载均衡分配。
输入 |
每个电源的规格 |
|
---|---|---|
200-240 伏交流电 |
14.3 kW 最大值 |
3,300 W @ 200-240 V, 16 A, 50-60 Hz |
支持 PSU 冗余和持续运行#
系统包括六个电源单元 (PSU),配置为 5+1 冗余。
请参考以下附加注意事项
如果 PSU 发生故障,请排除故障原因并立即更换故障的 PSU。
如果由于数据中心问题或配电单元故障导致两个 PSU 断电,系统将继续运行,但性能会降低。
如果只有两个 PSU 有电,请在更换可运行的 PSU 之前关闭系统。
系统仅在至少三个 PSU 运行时才能启动。如果运行的 PSU 少于三个,则只有 BMC 可用。
请勿在 PSU 卸载的情况下操作系统。
DGX B200 锁定电源线规格#
DGX B200 系统随附一套六 (6) 根锁定电源线,这些电源线经过认证可与 DGX B200 系统一起使用,以确保符合法规。
警告
为避免电击或火灾,请仅使用 NVIDIA 提供的电源线将电源连接到 DGX B200。有关更多信息,请参阅 电气预防措施。
重要提示
请勿将提供的电缆用于任何其他产品或任何其他目的。
电源线规格
电源线特性 |
规格 |
---|---|
电气 |
250VAC,20A |
插头标准 |
C19/C20 |
尺寸 |
1200 毫米长度 |
合规性 |
线缆:UL62、IEC60227 连接器/插头:IEC60320-1 |
使用锁定电源线#
本节提供有关如何使用锁定电源线的信息。
锁定和解锁 PDU 侧
配电单元侧
要插入,请将电缆推入 PDU 插座。
要移除,请将夹子压在一起并将电源线从插座中拔出。
锁定/解锁 PSU 侧(带扭锁机构的电源线)
电源(系统)侧 - 扭锁
要插入或移除,请确保电缆已解锁,然后将电缆推入/拉出插座。
环境规格#
以下是您的 DGX B200 系统的环境规格。
特性 |
规格 |
---|---|
工作温度 |
10°C 至 35°C(50°F 至 95°F) |
相对湿度 |
20% 至 80% 非冷凝 |
气流 |
1,550 CFM |
散热量 |
48,794 BTU/小时 |
前面板连接和控件#
本节提供有关 DGX B200 系统的前面板、连接和控件的信息。
带挡板#
以下是带挡板的 DGX B200 系统的图像。

控件 |
描述 |
---|---|
电源按钮 |
按下可打开或关闭 DGX B200 系统。
|
ID 按钮 |
按下可使蓝色 LED 亮起或闪烁(可通过 BMC 配置),作为维修期间的标识符。 它还会导致设备背面的 LED 闪烁,作为维修期间的标识符。 |
故障 LED |
琥珀色常亮:系统或组件发生故障 |
卸下挡板#
以下是卸下挡板的 DGX B200 系统的图像。

重要提示
有关如何正确打开或关闭系统的说明,请参阅 首次启动设置 部分。
后面板模块#
以下图像显示了 DGX B200 上的实际面板模块。

主板连接和控件#
以下图像显示了 DGX B200 系统中的主板连接和控件。

控件 |
描述 |
---|---|
电源按钮 |
按下可打开或关闭系统。 |
ID LED 按钮 |
从设备正面按下 ID 按钮时,它会闪烁,以帮助识别需要维修的设备。 |
BMC 复位按钮 |
按下可手动复位 BMC。 |
有关网络连接的详细信息,请参阅 网络连接、电缆和适配器。
主板托架组件#
以下图像显示了 DGX B200 系统中的主板托架组件。

GPU 托架组件#
以下是 DGX B200 系统中 GPU 托架组件的图像。

网络连接、电缆和适配器#
本节提供有关网络连接、电缆和适配器的信息。
网络端口#
以下图像显示了 DGX B200 系统上的网络端口。

端口名称 |
||||
---|---|---|---|---|
端口 |
PCI 总线 |
默认 |
可选 |
RDMA |
OSFP1P1 |
dc:00.0 |
ibp220s0 |
enp220s0np0 |
mlx5_15 |
OSFP1P2 |
9a:00.0 |
ibp154s0 |
enp154s0np0 |
mlx5_10 |
OSFP2P1 |
ce:00.0 |
ibp206s0 |
enp206s0np0 |
mlx5_14 |
OSFP2P2 |
c0:00.0 |
ibp192s0 |
enp192s0np0 |
mlx5_13 |
OSFP3P1 |
4f:00.0 |
ibp79s0 |
enp79s0np0 |
mlx5_8 |
OSFP3P2 |
40:00.0 |
ibp64s0 |
enp64s0np0 |
mlx5_7 |
OSFP4P1 |
5e:00.0 |
ibp94s0 |
enp94s0np0 |
mlx5_9 |
OSFP4P2 |
18:00.0 |
ibp24s0 |
enp24s0np0 |
mlx5_4 |
插槽 1 P1 |
aa:00.0 |
ibp170s0f0 |
enp170s0f0np0 |
mlx5_11 |
插槽 1 P2 |
aa:00.1 |
enp170s0f1np1 |
ibp170s0f1 |
mlx5_12 |
插槽 2 P1 |
29:00.0 |
ibp41s0f0 |
enp41s0f0np0 |
mlx5_5 |
插槽 2 P2 |
29:00.1 |
enp41s0f1np1 |
ibp41s0f1 |
mlx5_6 |
插槽 3 P1 |
82:00.0 |
ens6f0 |
不适用 |
irdma0 |
插槽 3 P2 |
82:00.1 |
ens6f1 |
不适用 |
irdma1 |
板载 |
0b:00.0 |
eno3 |
不适用 |
计算和存储网络#

网络模块#
用于聚合 PCIe 网络设备的新外形尺寸
将四个 ConnectX-7 网络卡整合到一个设备中
DGX B200 系统在两个网络模块托架上有八个 ConnectX-7 网络卡。内部 DensiLink 电缆将双端口 OSFP 接口连接到各个 ConnectX-7 网络卡。
端口 |
ConnectX 设备 |
网络模块/CPU |
GPU |
默认 |
RDMA |
---|---|---|---|---|---|
OSFP1P1 |
CX0 |
1 |
7 |
ibp220s0 |
mlx5_15 |
OSFP1P2 |
CX1 |
1 |
4 |
ibp154s0 |
mlx5_10 |
OSFP2P1 |
CX2 |
1 |
6 |
ibp206s0 |
mlx5_14 |
OSFP2P2 |
CX3 |
1 |
5 |
ibp192s0 |
mlx5_13 |
OSFP3P1 |
CX2 |
0 |
2 |
ibp79s0 |
mlx5_8 |
OSFP3P2 |
CX3 |
0 |
1 |
ibp64s0 |
mlx5_7 |
OSFP4P1 |
CX0 |
0 |
3 |
ibp94s0 |
mlx5_9 |
OSFP4P2 |
CX1 |
0 |
0 |
ibp24s0 |
mlx5_4 |

BMC 端口 LED#
BCM RJ-45 端口有两个 LED。
左侧的 LED 指示速度。绿色常亮表示速度为 100M。琥珀色常亮表示速度为 1G。
右侧的 LED 为绿色,闪烁表示活动。
支持的网络电缆和适配器#
DGX B200 系统未随附网络电缆或适配器。您需要购买支持的电缆或适配器用于您的网络。
ConnectX-7 固件决定了支持哪些电缆和适配器。有关与 DGX B200 系统中安装的 NVIDIA ConnectX 卡兼容的电缆和适配器列表,
请访问 NVIDIA 适配器固件版本 页面。
单击 ConnectX 型号并选择 DGX B200 系统中包含的相应固件。
从左侧的 主题 窗格中,选择“已验证和支持的电缆和交换机”主题。
要将 BlueField-3 DPU 配置为 NIC 模式,请按照 BlueField-3 的 NIC 模式 中的说明进行操作。
DGX B200 系统拓扑#
下图显示了 DGX B200 系统拓扑。

DGX OS 软件#
DGX B200 系统预装了 DGX 软件堆栈,其中包含以下组件
使用优化的 Linux 内核和支持包的 Ubuntu 服务器发行版
以下系统管理和监控软件
NVIDIA 系统管理 (NVSM)
为数据中心中的 NVIDIA DGX 节点提供主动健康监控和系统警报。它还提供简单的命令,用于从命令行检查 DGX B200 系统的健康状况。
数据中心 GPU 管理 (DCGM)
此软件支持对 GPU 进行节点范围的管理,并且可以用于集群和数据中心级别的管理。
DGX B200 系统支持包
NVIDIA GPU 驱动程序,包括 NVIDIA CUDA
Docker Engine
NVIDIA Container Toolkit
适用于 Linux 的 NVIDIA Networking OpenFabrics 企业版发行版 (DOCA-OFED)
NVIDIA Networking 软件工具 (MST)
cachefilesd(用于管理缓存数据存储的守护程序)
客户支持#
如需报告、排除故障或诊断 DGX B200 系统的问题方面的帮助,请联系 NVIDIA 企业支持。您也可以联系 NVIDIA 企业支持以获得移动 DGX B200 系统的帮助。
对于合同企业支持问题,您可以发送电子邮件至 enterprisesupport@nvidia.com。
有关获取支持的更多信息,请访问 NVIDIA 企业支持。
我们的支持团队可以帮助收集有关您问题的适当信息,并在需要时调动内部资源。