DIMM 更换#

DIMM 更换概述#

这是在 DGX A100 系统上更换双列直插内存模块 (DIMM) 的高级概述。

  1. 使用 nvsm health 命令来识别故障 DIMM

  2. 从 NVIDIA 企业支持处获取更换 DIMM。

  3. 关闭系统。

  4. 标记所有主板托架电缆并拔下它们。

  5. 卸下主板托架并将其放在坚固的平面上。

  6. 卸下主板托架盖。

  7. 使用主板托架盖上的参考图来识别故障 DIMM。

  8. 用新的 DIMM 更换坏的 DIMM。

  9. 关闭主板托架上的盖子。

  10. 将主板托架插入系统。

  11. 使用标签作为参考,插入所有电缆。

  12. 开启系统电源。

  13. 使用 nvsm 验证所有 DIMM 现在都正常。

识别故障 DIMM#

  1. 从控制台运行以下 nvsm 命令以识别内存警报。

    $ sudo nvsm show /systems/localhost/memory/alerts
    

    警报将出现在“目标”部分下。例如。

    Targets:
              alert0
    
  2. 获取有关内存警报的特定信息。

    以下示例获取有关 alert0 的信息。

    $ sudo nvsm show /systems/localhost/memory/alerts/alert0
    

    检查 component_id = 行以确定 DIMM ID。以下示例显示 DIMM ID 为 A1。

    Properties:
    system_name = ....
    component_id = CPU1_DIMM_A1
    ...
    

    输出提供有关警报的其他信息,可以提供给 NVIDIA 企业支持。

  3. 确定 DIMM 制造商。

    $ sudo nvsm show memory
    
  4. 从 NVIDIA 企业支持处请求更换 DIMM,并指定制造商。

更换 DIMM#

在尝试更换任何双列直插内存模块 (DIMM) 之前,请务必执行以下操作

  • 确定了需要更换的故障 DIMM 的位置 ID,如 :ref:identifying-failed-dimm 中所述。位置 ID 是字母数字指示符,例如 A0、A1、B0、B1 等。

  • 已获得更换 DIMM,并保存了包装,以便在退回故障 DIMM 时使用。

注意

静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

  1. 关闭系统电源。

  2. 标记连接到主板托架的所有电缆,以便在重新连接时轻松识别。

  3. 卸下主板托架。

    请参阅 卸下主板托架 部分中的说明。

  4. 使用盖子上的图表标签作为指南,找到要更换的故障 DIMM。

    _images/mb-tray-lid-label-dimms.png
  5. 卸下 DIMM。

    1. 按下 DIMM 插槽两端的侧面闩锁,将其从 DIMM 上推开。 这应该会将 DIMM 从插槽中弹出。

      _images/dimm-remove.png
    2. 笔直向上拉起 DIMM,将其从插槽中取出。

      _images/dimm-install.png
  6. 小心插入更换 DIMM。

    1. 确保插槽闩锁已打开。

    2. 将 DIMM 定位在插槽上方,确保 DIMM 上的凹口与插槽中的键对齐,然后将 DIMM 向下压入插槽,直到侧面闩锁卡入到位。

    3. 确保闩锁已向上并锁定到位。

    _images/dimm-install.png
  7. 安装三个导风罩,更换主板托架盖,然后安装主板托架。

    请参阅 重新安装主板托架 部分中的说明。

  8. 将所有电缆连接到主板托架。

  9. 安装所有电源线。

  10. 开启系统电源并登录。

  11. 确认系统运行正常。

    $ sudo nvsm show health
    $ sudo nvsm show /systems/localhost/memory/alerts
    

    不应列出新的警报。

  12. 将坏的 DIMM 寄回 NVIDIA 企业支持。