前风扇模块更换#

前风扇模块更换概述#

这是更换 NVIDIA DGX™ B200 系统上的前风扇模块的高级概述。

  1. 通过 BMC 或风扇模块 LED 识别故障的前风扇模块,并提交服务请求。

  2. 从 NVIDIA 企业支持部门获取更换件。

  3. 卸下故障的风扇模块。

  4. 插入新的风扇模块。

  5. 确认新的风扇模块通过 BMC 或操作系统工具正常工作。

  6. 使用提供的包装将故障单元退回 NVIDIA 企业支持部门。

识别故障的风扇模块#

您可以使用以下方法之一识别故障的风扇模块

  • 卸下系统前面板并目视检查风扇模块 LED。

  • 运行 nvsm show fans 命令并查看命令输出。

  • 访问 BMC Web 用户界面并查看来自风扇的传感器数据。如果风扇以异常速度运行,则需要更换该风扇。

查看风扇模块 LED

  1. 按照卸下和安装前面板中的说明露出风扇模块。

    卸下前面板后,系统外观如下图所示。

    _images/b200-front-view-fans.png
  2. 使用风扇模块故障 LED 识别故障风扇,如下图所示。

    _images/fan-module.png
  3. 查找故障风扇模块右上角点亮的故障 LED,如下图所示。

    _images/fan-led.png

运行 nvsm 命令

  • 从操作系统运行

    sudo nvsm show fans
    

    查看命令输出中的警报、故障或 unhealthy 状态。

从 BMC Web 用户界面查看风扇模块

  1. 使用 BMC 仪表板识别故障的风扇模块。

  2. 登录到 BMC。

  3. 从左侧导航菜单中选择 Sensor(传感器)。

  4. 查看 Normal Sensors(正常传感器)部分。

  5. 在右侧列中查找异常风扇速度。

    _images/b200-fan-speed.png

    风扇模块有两个风扇,分别由 SPD_FAN_SYSn_FSPD_FAN_SYSn_R 标识,其中 n 是模块 ID。如果任一风扇发生故障,则必须更换整个模块。

  6. 使用 nvsm 命令确认风扇问题。

    sudo nvsm show fans
    

    查看输出并确认同一风扇的状态为 unhealthy(不健康)。

更换和退回前风扇模块#

  1. 从包装中取出新的风扇模块,并准备好安装。

  2. 按照卸下和安装前面板中的说明露出风扇模块。

  3. 要卸下故障的风扇模块,请按下释放按钮解锁风扇模块,然后将模块从机箱中拉出。

    _images/b200-fan-release-button.png
  4. 用新的风扇模块更换故障的风扇模块。

    重要提示

    在 30 秒内用新风扇更换旧风扇,以防止过热。

    _images/b200-fan-replace.png
  5. 通过执行以下任务确认风扇模块健康且正常工作

    • 使用 BMC Web 用户界面。

    • 验证风扇模块上的琥珀色 LED 是否熄灭。

    • 运行 sudo nvsm show fans 命令。

    • 按照卸下和安装前面板中的说明安装前面板。

使用新风扇模块的包装将故障的风扇模块退回 NVIDIA 企业支持部门。