散热和气流优化#
本文档是NVIDIA DGX SuperPOD:采用 NVIDIA DGX H100 系统的数据中心设计的一部分。
规划机架配置的完整热负载至关重要,请记住,电源配置基于仅提供满负载 50% 的电路。对于传统的 2N 冗余电源配置方案,散热容量通常与 N 容量对齐,但 N 通常是单个电源电路的容量。但是,对于指定的 N+1 电源配置,N 等于两个电路。因此,将散热容量与 N 对齐至关重要,而不仅仅是单个电源电路的容量。一些数据中心设计可能对散热容量有限制,这需要在 DGX SuperPOD 部署计划中作为缓解措施的一部分。以下部分揭示了缓解这些限制的常用策略。
使用本文档了解以下内容
基础概念#
在考虑更激烈的散热缓解措施之前,务必确保空间内的气流得到优化和良好管理。虽然以下步骤可能很简单,但它们的重要性不容忽视。
行朝向#
数据中心地板上的机架行通常以创建热通道和冷通道的方式排列。这些通道的创建方式是将机架定向为两排相对机架的背面在一个通道中彼此相对,而两排机架的前面在下一个通道中彼此相对。供应空气被输送到“冷通道”,废气从“热通道”排出。仔细间隔这些行非常重要,以便冷通道的宽度足以输送其所服务的所有机架所需的空气量,并且热通道的宽度足以防止较高功率服务器的机架干扰相对行中较低功率服务器的废气气流。通道的最小宽度应为 36 英寸,强烈建议冷通道的最小宽度为 48 英寸,以便在通道内安全导航和使用服务器升降机、技术推车和其他运输工具。
通道封闭#
许多数据中心采用通道封闭策略来帮助管理和优化气流,特别是对于高密度机架。数据中心设计人员可以选择封闭冷通道或热通道,具体取决于数据中心空间中的空气输送方式。在任何一种情况下,通道封闭的主要好处是防止热通道到冷通道的空气再循环,这会人为地增加服务器入口处的供应空气温度,从而显着降低其热交换潜力。
图 20 说明了四排机架,它们被分为两个冷通道封闭结构,它们之间有一个未封闭的热通道。这些结构通常由某种形式的透明丙烯酸(或其他类似材料)隔板面板构成,这些面板包围机架的正面或背面,以及行末端的垂直隔板,通常带有用于进入封闭区域的自动关闭门。

图 20. 通道封闭装置#
除非所有热通道和冷通道之间的气流通道都被阻塞,否则通道封闭不可能真正有效。因此,机架中未占用的 RU 空间应覆盖盲板,机架顶部、侧面或底部或地板下用于电缆穿过的开口应安装刷形索环。
系统操作和维护#
一些系统维护步骤可以帮助确保最佳的散热性能。其中包括定期更换空气过滤器、使用正确的过滤器规格、定期测量空间内的湿度水平(并在未达到公差时采取规定的纠正措施)、定期审核高架地板穿孔瓷砖的流速以及对所有空气处理机进行定期预防性维护循环。强烈建议创建数据中心空间的精确计算流体动力学模型,以便在实施之前对计划的更改进行建模,以评估其对关键系统的潜在影响。
散热超额配置#
当数据中心资源的容量与对该资源的需求之间存在差异时,则称该资源被超额配置。散热超额配置有时可以通过降低机架密度来缓解,从而降低每个机架占地面积的散热需求,或者通过将机架间隔更远来聚合多个机架占地面积的散热容量到每个已填充的机架。这两种解决方案都会消耗更多的数据中心空间,也许更重要的是,需要更长的电缆长度来互连机架。应仔细注意电缆长度,因为它与这些潜在的解决方案有关。
考虑以下假设部署场景,其中单个 SU 及其管理机架以高密度部署模式部署在数据中心散热容量受限的区域。图 21 描绘了 358 kW 的热负载,部署模式仅提供 260 kW 的散热容量。

图 21. 散热超额配置场景#
在这种情况下,如果服务器机架间隔一个机架占地面积,则可以利用额外的散热容量。
图 22 描绘了以这种方式间隔的相同部署模式。现在,358 kW 的需求由 460 kW 的散热容量提供。

图 22. 已解决的散热超额配置#
如前所述,散热超额配置也可以通过降低机架密度来解决。根据每个机架占地面积的实际散热容量,这可能消耗更多的额外空间,或者根据机架可用的电源配置选项,这可能导致更多的滞留电源容量。目标是使用消耗或浪费最少替代资源(在本例中为空间和/或电力)的方法来解决任何超额配置场景,以达到尽可能最佳的部署模式。
注意
为了说明目的,图 21 和图 22 中的管理机架均被描绘为产生 20kW 的热负载。实际上,每个管理机架的功耗和热负载都是独一无二的,并且可能因个人部署要求而异。20kW 的数字只是用于说明概念的平均热负载,不应用作实际部署中精确功率或散热容量规划的替代品。