DIMM 升级和更换#

注意

静电敏感设备:务必遵守静电放电 (ESD) 防护的最佳实践。确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

DIMM 升级步骤#

要升级 DIMM,

  1. 联系 NVIDIA 以获取完整的升级套件。

  2. 按照 DIMM 更换章节中的说明更换所有 DIMM。

DIMM 更换概述#

这是在 NVIDIA DGX™ B200 系统上更换双列直插内存模块 (DIMM) 的高级概述。

  1. 使用 nvsm health 命令来识别故障 DIMM。

  2. 从 NVIDIA 企业支持部门获取更换 DIMM。

  3. 关闭系统。

  4. 标记所有主板托架电缆并拔下它们。

  5. 卸下主板托架并将其放在坚固的平面上。

  6. 卸下主板托架盖。

  7. 使用主板托架盖上的参考图来识别故障 DIMM。

  8. 用新的 DIMM 更换故障的 DIMM。

  9. 关闭主板托架上的盖子。

  10. 将主板托架插入系统。

  11. 使用标签作为参考,插入所有电缆。

  12. 开启系统电源。

  13. 使用 nvsm health 命令验证所有 DIMM 现在都运行正常。

  14. 使用提供的包装将故障单元发送给 NVIDIA 企业支持部门。

注意

您应该遵守以下 DIMM 填充指南

  • 每个内存通道(A、B、C、D、E、F、G、H)应填充相同的 DIMM,以便在双内存配置中获得最佳性能。例如,通道 B 内插槽 CPU1_B0 和 CPU1_B1 中的 DIMM 应具有相同的部件号。

  • 不同的内存通道可以填充不同部件号的 DIMM。例如,插槽 CPU1_A0 和 CPU1_A1 中的 DIMM 应具有相同的部件号,而插槽 CPU1_B0 和 CPU1_B1 中的 DIMM 应具有相同的部件号。但是,通道 A 中的 DIMM 制造商可以与通道 B 中的 DIMM 制造商不同。

识别故障 DIMM#

  1. 在控制台中,运行以下 nvsm 命令来识别故障 DIMM

    sudo nvsm show health
    
  2. 确定 DIMM 制造商。

    sudo nvsm show memory
    
  3. 向 NVIDIA 企业支持部门请求更换 DIMM,并指定制造商。

更换 DIMM#

  1. 关闭系统电源。

  2. 卸下主板托架。有关更多信息,请参阅 主板托架 - 拆卸和安装

  3. 将主板从系统中拉出,并将其放在坚固的平面上。

    卸下盖子和导风罩以露出 DIMM。

  4. 在主板上识别故障 DIMM。

    使用盖子上的标签来识别要更换的 DIMM 的位置。DIMM 的名称还包括 CPU 编号,以便于识别。

    _images/dgx-b200-motherboard.png
  5. 要卸下故障的 DIMM,请按下弹出杆,将 DIMM 从插槽中弹出。

    _images/dimm-socket-levels.png
  6. 要插入新的 DIMM,请将其放置在插槽中并向下按,直到杆关闭并且 DIMM 卡入到位。

    _images/dimm-socket-open.png _images/dimm-location.png

完成 DIMM 更换#

  1. 安装导风罩,关闭主板,并将托架安装到机箱中。有关更多信息,请参阅 主板托架 - 拆卸和安装

  2. 插入所有电缆。

  3. 安装所有电源线。

  4. 开启系统电源。

  5. 登录并使用 nvsm 命令确认系统运行正常

    sudo nvsm show health
    
  6. 将故障的 DIMM 发送给 NVIDIA 企业支持部门。