白色空间基础设施#

本文档是 NVIDIA DGX SuperPOD:数据中心设计,采用 NVIDIA DGX H100 系统 的一部分。

使用本文档了解以下内容

空间规划#

在决定 SU 的放置位置时,通常会考虑许多重要因素,包括功率容量、散热容量、电缆布线和管理以及相邻设备的要求。虽然这些因素对位置选择有重大影响,但也应考虑可扩展性。随着 DGX SuperPOD 从一个可扩展单元扩展到两个或更多,必须有相邻空间可用于扩展。基于性能的电缆长度限制禁止将机架或可扩展单元彼此分布得太远。周密的部署将考虑未来的扩展,并为系统的未来状态而非初始状态预留足够的空间。

机架标准和要求#

机架必须符合 EIA-310 标准,用于 19 英寸 EIA 安装的封闭式机架。机柜尺寸必须至少为 24 英寸 x 48 英寸(600 毫米 x 1,200 毫米),高度至少为 48U。为了实现适当的电缆管理、rPDU 放置、气流管理以及系统后部的维修间隙,NVIDIA 建议使用 32 英寸 x 48 英寸(800 毫米 x 1,200 毫米)的机架。机架不得有烟囱。所有机架都必须安装侧壁。

对于每个机架,两个温度传感器将连接到最靠近机架前部的 PDU 中的以太网端口。传感器必须安装在机架的前侧,位于 4U 位置和 42U 位置。当面对机架正面时,传感器将位于右侧。热机架测量也可以遵循 Telcordia GR-63-CORE 标准。规定了电缆管理装置,并且必须使用。对于网络交换机,可以规定进气导管。

IT 机柜有多种尺寸,通常为特定用途而设计。每个机柜 OEM 都遵循特定的最低 EIA-310 标准,以确保行业标准设备能够正确安装。但 OEM 会通过自己独特的设计和功能来增强 EIA-310 标准,从而在市场上脱颖而出。这些功能可能包括

  • 气流管理

  • 电缆管理

  • 模块化子组件

  • 可拆卸组件

  • 专有配件

  • 辅助安全设备

  • 定制制造、颜色、公司徽标等等

订购机柜时的选项#

  • 机柜门

    • 除非设施运营或安全策略强制要求,否则不建议使用前门和后门。取消前门和后门有助于改善气流并降低成本。

  • 侧面板

    • 应添加并安装侧面板,以最大限度地提高气流管理。

  • 接地和搭接套件

    • 此套件通常是可选项目,可能不随附机柜提供。适当的接地和搭接至关重要。

  • 盲板

    • 必须在每个未使用的 RU 位置安装盲板,以防止排出的空气再循环。

  • 机柜顶部选项和配件

    • 许多机柜制造商提供各种机柜顶部选项和配件,以方便散热管理和电缆布线管理。

    • 无论是标准功能还是可选功能,机柜都必须具有足够的电缆入口端口,以支持进入机架的电缆量,并且所有此类端口都应使用刷子垫圈或类似装置进行保护,以控制气流。有关更多信息,请参阅 数据中心布线指南

机柜安装#

为了工作人员和设备的安全,所有机柜都应按照制造商的建议固定在地板表面上。这可能包括通过为此目的设计的法兰或安装点将机柜螺栓固定。

抗震考虑因素#

凡是当地主管部门 (AHJ) 强制要求的地方,安装在架空地板表面上的机柜可能需要在地板下空间安装抗震支撑。抗震支撑应由专门从事抗震工程的合格持证结构工程师设计和安装。

机柜选择与电缆长度#

机柜的高度和宽度与架空电缆桥架的规格和布局相结合,将影响电缆长度。InfiniBand 网络中的电缆长度是关键的性能因素。点对点电缆布线应限制在最大 165 英尺(50 米)以内。在任何可能的情况下,在选择机柜尺寸和设计架空电缆布线设备时,电缆长度都应是主要的设计标准。

在选择指定机架宽度(图 12)时,应注意对电缆长度和行宽的影响。

Dimensions for various cabinet options

图 12. 各种机柜选项的尺寸#

虽然较宽的机架是有益的,但可能需要减少每行的机架数量,或将机架分布在两行中,以便可以保持最大的行宽和最佳的电缆长度(图 13)。

Row width based on rack width

图 13. 基于机架宽度的行宽#

服务器安装要求#

所有 DGX SuperPOD 设备都设计为安装在符合 EIA-310-D 标准的传统 IT 服务器机柜中(图 14),该标准除其他因素外,还规定了以下内容

  • 垂直孔间距

    • 垂直孔间距定义为 1.75 英寸的 1 RU 内的重复孔模式。孔间距交替为:1/2 英寸 – 5/8 英寸 – 5/8 英寸并重复。 “U” 空间的开始和结束位于 1/2 英寸间隔孔的中间。

  • 水平间距

    • 垂直孔行的水平间距指定为 18 5/16 英寸(18.312)(465.1 毫米)。

    • 许多制造商使用设备安装槽而不是孔,以允许此尺寸的变化。

  • 机架开口

    • 机架中放置设备的空间指定为最小宽度为 17.72 英寸(450 毫米)。

  • 前面板宽度

    • 设备前面板的总宽度(包括其机架安装支架)为 19 英寸(482.6 毫米)

DGX H100 system mounted in EIA-310-D compliant server cabinet

图 14. 安装在符合 EIA-310-D 标准的服务器机柜中的 DGX H100 系统#

安装服务器#

另一个需要设计注意的领域是设备在机柜中的安装方式和位置。这首先涉及设置机架导轨的适当距离。这将设置机柜内的水平方向。

某些 DGX SuperPOD 设备使用导轨套件安装。导轨套件是一种专门设计的支架,用于支撑设备在机架中的全部重量,方法是从前机架导轨跨越到后机架导轨。导轨套件可以是固定式搁板型支架,也可以是允许设备在可伸缩支柱上从机架外壳中拉出的支架。这些导轨套件的延伸范围为 28–32 英寸。在提供导轨套件的任何地方,都必须按照制造商的建议使用导轨套件。

DGX H100 系统的导轨套件组件如图 15 所示。

DGX H100 rail kit

图 15. DGX H100 导轨套件#

由于服务器的尺寸和重量,服务器应安装在最靠近机架底部的位置,从服务器升降机可访问的最低位置开始(通常为机架单元位置 3)。在每台服务器之间留出 1 RU 的空间是可选的,但不是必需的。

典型的高密度机架配置将在机架底部集中放置两台服务器,中间留出 3 RU 的间隙以帮助机架气流管理,然后在上面集中放置两台服务器(图 16)。水平 rPDU 通常放置在机架顶部附近。

Server deployment positions for various rack densities

图 16. 各种机架密度的服务器部署位置#

气流管理#

某些 IT 设备可以选择通过设备机箱的气流方向。此选择的决定因素是预期的热通道温度。服务器和 DGX H100 系统将始终采用前后气流方向。但是,网络交换机和设备通常可配置为使其气流方向与前部或后部机架位置对齐。通常,网络交换机安装在机架后部,网络连接器面向热通道。在这种方向中,气流从设备机箱的背面(电源或“P”侧)进入,并从设备机箱的前面(网络连接器或“C”侧)排出。这种类型的气流方向称为“电源到连接器”或“P2C”。这是数据中心网络设备的默认安装配置和气流方向,也是服务器/网络机柜进出电缆路径的标准配置。

如果热通道温度将达到 60°C (140°F) 以上,则必须将布线(包括电源布线)移至冷通道或降低额定值。这意味着网络交换机很可能安装在机架的前部,网络端口面向冷通道。在这种方向中,空气从机箱的前“网络连接器”或“C”侧吸入,并从机箱的后“电源”或“P”侧排出。这种气流方向称为“连接器到电源”或“C2P”。

表 16 显示了 P2C 和 C2P 的示例。

表 16. 气流方向#

方向

描述

标识

Power side inlet to Connector side outlet

电源侧入口到连接器侧出口

P2C

Power side inlet to Connector side outlet

连接器侧入口到电源侧出口

C2P

热通道温度与冷通道中的供气温度以及设备本身的热升温 ΔT 或预期温升(通常为 25-30°F)直接相关。例如,在供气温度为 70°F 和预期 ΔT 为 30°F 的情况下,预期的热通道温度将为 100°F。超过 60°C/140°F 的热通道温度并不常见。

如果需要 C2P 方向,则必须在 BoM 选择期间做出此选择,因为在许多情况下,气流由电源风扇决定,并且无法在现场修改。

静态重量和点载荷#

一个典型的 IT 机柜的平均空载重量为 350 磅(158 公斤)。单个 DGX H100 系统的重量为 287.6 磅(130.45 公斤)。除了服务器和机柜本身之外,外围设备(如 rPDU、盲板、电缆管理设备、环境传感器和布线)也会增加额外的重量。必须确保所有地板结构(包括适用的地板下结构和楼板)都经过工程设计,能够支撑它们必须支撑的设备机架的总重量。同样重要的是要确保装卸码头和服务器机房地板之间的所有入口和出口通道都经过工程设计,能够支撑设备的总重量以及用于将设备移动到机架位置的任何运输工具。表 17 列出了不同机架配置的估计(四舍五入)重量。这些仅是一般估计值。特定负载机架的精确重量将取决于所选实际机架型号的空载重量,以及任何无关的外围组件和布线。

表 17. DGX H100 系统机架的重量配置#

数量

DGX 系统

每机架

总计

机架重量

(磅)

点载荷

(磅)

总计

机架重量

(千克)

点载荷

(千克)

1

650

217

295

98

2

925

308

420

38

4

1500

500

680

226

服务器升降机#

由于 DGX H100 系统的重量很大,因此必须使用服务器升降机(图 17)来安装和拆卸机架中的设备,并将它们运输到机架位置。

Server lifts

图 17. 服务器升降机#

合适的服务器升降机专为在数据中心环境中使用而设计,用于将重型但敏感的设备(如服务器和网络交换机机箱)提升到服务器机柜中。它们包括一个用于固定和提升设备的平台,而不是像叉车那样的叉子。通用材料升降机,包括任何使用叉子代替平台的升降机,都不适合用作服务器升降机——即使它们被宣传为用于此类用途。按照制造商规定的所有安全预防措施和协议使用服务器升降机。确保服务器升降机的额定重量至少为 350 磅。在提升设备之前,确保任何架空障碍物下方有足够的间隙。

安全、噪音和防火#

除了物理计算和网络基础设施外,在实施 DGX SuperPOD 时,还应考虑某些其他站点基础设施和安全因素。本节概述了最重要的外部考虑因素。

物理安全#

DGX SuperPOD(包括服务器和网络基础设施)应受到保护,防止未经授权的物理访问。数据中心的访问控制是防止系统篡改、知识产权盗窃、数据复制或未经授权删除数据所必需的。数据中心站点安全措施应至少通过 SOC 合规性认证,以及任何其他具有管辖权的机构的认证。这包括可审计的门禁控制和摄像头,这些摄像头可以识别进入空间的人员并记录该人员在空间内的行为。根据管理数据和应用程序的安全策略和要求,DGX SuperPOD 机架应使用隔板或笼子与其他无关的 IT 机架隔离,访问权限仅限于授权维护 NVIDIA 机架的人员。

噪音#

NVIDIA DGX H100 系统在 1 米距离处可能会产生超过 98 分贝的噪音水平。噪音降低措施和听力保护是数据中心运营商的责任,应根据当地主管部门和行业法规的要求提供。有关噪音风险和缓解措施的更多详细信息,请参阅 噪音缓解

防火#

数据中心需要火灾探测和防火系统/设备。各辖区的法规各不相同,导致不同数据中心使用的火灾探测和抑制方案也不同。火灾探测和抑制系统是数据中心运营商的责任,应根据客户保险承保人、当地消防队长和当地建筑检查员的要求安装,以获得正确的覆盖范围和保护级别。