前风扇模块更换#

前风扇模块更换概述#

这是更换前风扇模块所需步骤的概要概述。

  1. 通过 BMC 或风扇模块 LED 识别故障的前风扇模块,并提交服务请求

  2. 从 NVIDIA 企业支持部门获取更换件

  3. 卸下故障的风扇模块

  4. 插入新的风扇模块

  5. 通过 BMC 或操作系统工具确认新的风扇模块正常工作

  6. 使用提供的包装将故障单元退回/运送至 NVIDIA 企业支持部门

识别故障的风扇模块#

您可以使用以下任何一种方法识别故障的风扇模块

  • 卸下系统挡板并目视检查风扇模块 LED。

  • 运行 nvsm show fans 命令并查看命令输出。

  • 访问 BMC Web 用户界面并查看来自风扇的传感器数据。如果风扇以异常速度运行,则需要更换该风扇。

查看风扇模块 LED

  1. 卸下和安装挡板 以露出风扇模块。

    卸下挡板后,系统外观如下图所示。

    _images/dgx-h100-front-view-fans.png
  2. 使用风扇模块故障 LED 识别故障风扇,如下图所示。

    _images/fan-module.png
  3. 查找故障风扇模块右上角点亮的故障 LED,如下图所示。

    _images/fan-led.png

运行 Show Fans 命令

  • 从操作系统运行

    sudo nvsm show fans
    

    查看命令输出中是否有任何警报、故障或 unhealthy 状态。

从 BMC Web 用户界面查看风扇模块

  1. 使用 BMC 仪表板识别故障的风扇模块。

  2. 登录到 BMC。

  3. 从左侧导航菜单中单击 Sensor(传感器)。

  4. 查看 Normal Sensors(正常传感器)部分。

  5. 在右侧列中查找异常风扇速度。

    _images/front-fan-module.png

    风扇模块中有两个风扇,分别由 SPD_FAN_SYSn_FSPD_FAN_SYSn_R 标识,其中 n 是模块 ID。如果任一风扇发生故障,则必须更换整个模块。

  6. 使用 nvsm 命令确认风扇问题。

    sudo nvsm show fans
    

    查看输出并确认同一风扇的状态为 unhealthy(不健康)。

更换和退回前风扇模块#

  1. 从包装中取出新的风扇模块,并准备好安装。

    重要提示

    在 30 秒内用新的风扇更换旧的风扇,以避免系统组件过热。

  2. 请参阅卸下和安装挡板 以露出风扇模块。

  3. 按下释放按钮解锁风扇模块,如下图所示。

    _images/dgx-h100-fan-release-button.png
  4. 用新的风扇模块更换故障的风扇模块。

    _images/dgx-h100-fan-replace.png
  5. 通过执行以下操作确认风扇模块运行状况良好

    • 使用 BMC Web 用户界面

    • 验证风扇模块上的琥珀色 LED 是否熄灭

    • 运行 sudo nvsm show fans 命令

    • 按照挡板部分中的描述安装挡板