DIMM 更换#

注意

静电敏感设备:请务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

DIMM 更换概述#

这是在 NVIDIA DGX™ H100/H200 系统上更换双列直插内存模块 (DIMM) 的过程的高级概述。

  1. 使用 nvsm health 命令来识别故障 DIMM

  2. 从 NVIDIA 企业支持部门获取更换 DIMM

  3. 关闭系统

  4. 标记所有主板托架电缆并拔下它们

  5. 卸下主板托架并将其放在坚固的平面上

  6. 卸下主板托架盖

  7. 使用主板托架盖上的参考图来识别故障 DIMM

  8. 用新 DIMM 更换坏 DIMM

  9. 关闭主板托架上的盖

  10. 将主板托架插入系统

  11. 使用标签作为参考插入所有电缆

  12. 开启系统

  13. 使用 nvsm health 验证所有 DIMM 现在都处于健康状态

  14. 使用提供的包装将故障单元运回 NVIDIA 企业支持部门

注意

您应遵守以下 DIMM 填充指南

  • 每个内存通道(A、B、C、D、E、F、G、H)应填充相同的 DIMM,以在双内存配置中获得最佳性能。例如,通道 B 中插槽 CPU1_B0 和 CPU1_B1 中的 DIMM 应具有相同的部件号。

  • 不同的内存通道可以填充不同部件号的 DIMM。例如,插槽 CPU1_A0 和 CPU1_A1 中的 DIMM 应具有相同的部件号,而插槽 CPU1_B0 和 CPU1_B1 中的 DIMM 应具有相同的部件号。但是,通道 A 中的 DIMM 制造商可以与通道 B 中的 DIMM 制造商不同。

识别故障 DIMM#

  1. 从控制台运行以下 nvsm 命令来识别内存警报

    sudo nvsm show health
    
  2. 确定 DIMM 制造商。

    sudo nvsm show memory
    
  3. 从 NVIDIA 企业支持部门请求更换 DIMM,并指定制造商。

更换 DIMM#

  1. 关闭系统电源。

  2. 卸下主板托架。有关更多信息,请参阅 主板托架 - 拆卸和安装

  3. 将主板从系统中拉出,并将其放在坚固的平面上,然后卸下盖子和导风罩以露出 DIMM。

  4. 在主板上识别故障 DIMM。使用盖子上的标签来识别要更换的 DIMM 的位置。DIMM 的名称还包括 CPU 编号,以便于识别。

    _images/motherboard.png
  5. 卸下 DIMM。按下 DIMM 插槽两端的侧面闩锁,使其远离 DIMM。这应将 DIMM 从插槽中松开。

    _images/dimm-socket-levels.png
  6. 要安装 DIMM,请确保两个控制杆都处于打开位置。确保 DIMM 与键正确对齐,位置正确,然后向下按 DIMM,直到其卡入插槽并且控制杆关闭。

    _images/dimm-socket-open.png _images/dimm-location.png

完成 DIMM 更换#

  1. 安装导风罩,关闭主板,并将托架安装到机箱中。有关更多信息,请参阅 主板托架 - 拆卸和安装

  2. 插入所有电缆。

  3. 安装所有电源线。

    _images/case-rear.png
  4. 开启系统电源。

  5. 登录并使用 nvsm 命令确认系统运行状况良好

    sudo nvsm show health
    
  6. 将坏 DIMM 运回 NVIDIA 企业支持部门。