DIMM 更换

DIMM 更换概述

这是在 DGX-2 系统上更换双列直插内存模块 (DIMM) 的高级概述。
  1. 使用 nvsm show 命令识别故障 DIMM
  2. 从 NVIDIA 企业支持获取更换 DIMM。
  3. 关闭系统。
  4. 标记所有主板托架电缆并拔下它们。
  5. 移除主板托架并将其放在坚固的平面上。
  6. 移除主板托架盖。
  7. 使用主板托架盖上的参考图识别故障 DIMM。
  8. 用新的 DIMM 更换坏的 DIMM。
  9. 关闭主板托架上的盖子。
  10. 将主板托架插入系统。
  11. 使用标签作为参考插入所有电缆。
  12. 开启系统电源。
  13. 使用 nvsm 验证所有 DIMM 现在都处于健康状态。

识别故障 DIMM

  1. 在控制台中,运行以下 nvsm 命令以识别内存警报。
    $ sudo nvsm show /systems/localhost/memory/alerts
    警报将出现在目标部分下。例如。
    Targets:
              alert0
    
  2. 获取有关内存警报的具体信息。 以下示例获取有关 alert0 的信息。
    $ sudo nvsm show /systems/localhost/memory/alerts/alert0
    检查 component_id = 行以确定 DIMM ID。以下示例显示 DIMM ID 为 A1。
    Properties:
    system_name = ....
    component_id = CPU1_DIMM_A1
    ...
    输出提供有关警报的其他信息,这些信息可以提供给 NVIDIA 企业支持。
  3. 确定 DIMM 制造商。
    $ sudo dmidecode -t memory|grep Manufacturer |tail -l
  4. 从 NVIDIA 企业支持请求更换 DIMM,并指定制造商。

更换 DIMM

在尝试更换任何双列直插内存模块 (DIMM) 之前,请务必执行以下操作:
  • 识别故障 DIMM中所述,确定需要更换的故障 DIMM 的位置 ID。位置 ID 是一个字母数字指示符,例如 A0、A1、B0、B1 等。
  • 已获得更换 DIMM,并已保存包装,以便在退回故障 DIMM 时使用。

注意静电敏感设备:- 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

  1. 关闭系统。
  2. 标记连接到主板托架的所有电缆,以便在重新连接时易于识别。
  3. 移除主板托架。 请参阅 移除主板托架 部分中的说明。
  4. 使用下图作为指南,找到要更换的故障 DIMM。

  5. 移除 DIMM。
    1. 按下 DIMM 插槽两端的侧闩锁,将其从 DIMM 上推开。 这应该会从插槽中松开 DIMM。
    2. 笔直向上拉 DIMM 以将其从插槽中移除。

  6. 小心地插入更换 DIMM。
    1. 确保插槽闩锁已打开。
    2. 将 DIMM 放在插槽上方,确保 DIMM 上的凹口与插槽中的键对齐,然后将 DIMM 向下按入插槽,直到侧闩锁卡入到位。
    3. 确保闩锁已向上并锁定到位。

  7. 安装主板托架盖,然后安装主板托架。 请参阅 安装主板托架 部分中的说明。
  8. 将所有电缆连接到主板托架。
  9. 开启系统电源并登录。
  10. 确认系统运行正常。
    $ sudo nvsm show /systems/localhost/memory/alerts
    应该没有列出新的警报。