DIMM 升级#

您可以通过安装额外的 16 个 DIMM 来升级系统内存。

DIMM 升级概述#

这是在 DGX A100 系统上添加 16 个额外的双列直插内存模块 (DIMM) 的步骤的高级概述。

  1. 从 NVIDIA 销售处获取内存升级套件(16 个 DIMM)。

  2. 关闭系统。

  3. 标记所有主板托架电缆并拔下它们。

  4. 移除主板托架并将其放在坚固的平面上。

  5. 移除主板托架盖。

  6. 使用主板托架盖上的参考图,识别空的 DIMM 位置(已安装空气挡板的位置)。

  7. 用新的 DIMM 替换空气挡板。

  8. 关闭主板托架盖。

  9. 将主板托架插入系统。

  10. 使用标签作为参考,插入所有电缆。

  11. 开启系统电源。

  12. 使用 nvsm 验证所有 DIMM 以及系统是否运行正常。

升级 DIMM#

注意

静电敏感设备:- 务必遵守静电放电 (ESD) 防护的最佳实践。 这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。

  1. 关闭系统电源。

  2. 标记连接到主板托架的所有电缆,以便于重新连接时识别。

  3. 移除主板托架和空气挡板。

    请参阅 移除主板托架 部分中的说明。

  4. 使用盖子上的图表标签作为指南,找到升级期间要安装的 DIMM。

    _images/mb-tray-lid-label-dimms.png
  5. 移除 DIMM 空气挡板。

    按下空气挡板两端的侧面闩锁,将模块从插槽中弹出,然后将空气挡板从插槽中拉出。

    _images/dimm-air-baffle-remove.png
  6. 从 CPU-1 插槽 I1、J1、K1、L1、M、N1、O1 和 P1 中移除 8 个 DIMM

    按下 DIMM 两端的侧面闩锁,将模块从插槽中弹出,然后将 DIMM 从插槽中拉出。

    _images/dimm-remove.png
  7. 小心地将您刚移除的 8 个 DIMM 插入 CPU-0 插槽 A0、B0、C0、D0、E0、F0、G0 和 H0。

    1. 确保插槽闩锁已打开。

    2. 将 DIMM 放在插槽上方,确保 DIMM 上的凹口与插槽中的键对齐,然后将 DIMM 向下压入插槽,直到侧面闩锁卡入到位。

      _images/dimm-insert.png
    3. 确保闩锁已向上锁定到位。

  8. 将升级套件中的新 DIMM 安装到 CPU-1 插槽 I0、I1、J0、J1、K0、K1、L0、L1、M0、M1、N0、N1、O0、O1、P0 和 P1 中。

    1. 确保插槽闩锁已打开。

    2. 将 DIMM 放在插槽上方,确保 DIMM 上的凹口与插槽中的键对齐,然后将 DIMM 向下压入插槽,直到侧面闩锁卡入到位。

      _images/dimm-insert.png
    3. 确保闩锁已向上锁定到位。

  9. 安装三个主板空气挡板,更换主板托架盖,然后安装主板托架。

    请参阅 重新安装主板托架 部分中的说明。

  10. 将所有电缆连接到主板托架。

  11. 安装所有电源线。

  12. 开启系统电源并登录。

  13. 确认总内存现在为 2 TB。

    $ lsmem
    
    Total online memory:       2T
    
  14. 确认系统运行正常。

    $ sudo nvsm show health