ConnectX-5 网卡更换

ConnectX-5 网卡更换概述

这是更换 DGX-2 系统上一个或多个 Mellanox ConnectX-5 网卡的高级概述。
  1. 使用 nvsm show 命令识别故障的 ConnectX-5 网卡。
  2. 从 NVIDIA 企业支持部门获取更换的 ConnectX-5 网卡。
  3. 关闭系统。
  4. 标记所有 I/O 托盘电缆并拔下它们。
  5. 移除 I/O 托盘并打开盖子。
  6. 找到故障的 ConnectX-5 网卡,然后拧下固定网卡的螺丝并移除网卡。
  7. 将新网卡插入插槽并用螺丝固定。
  8. 关闭 I/O 托盘上的盖子,然后将托盘插入系统。
  9. 使用标签作为参考,插入所有电缆。
  10. 开启系统电源。
  11. 使用 nvsm 验证 ConnectX-5 网卡是否运行正常。

更换 ConnectX-5 网卡

在尝试更换任何 ConnectX-5 网卡之前,请务必执行以下操作:
  • 确定需要更换的故障 ConnectX-5 网卡的位置 ID。

    运行 nvsm show health 以识别坏卡。记下 PCIe 总线 ID 和插槽号。

  • 已获得更换的 ConnectX-5 网卡,并保存了包装,以便在退回故障组件时使用。

注意静电敏感设备: - 务必遵守静电放电 (ESD) 保护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作台面上。

  1. 关闭系统电源。
  2. 标记连接到 I/O 托盘的所有网络端口 (0-7),以便于重新连接时识别。

  3. 移除电缆。
  4. 移除 I/O 托盘。
    1. 用 2 号十字螺丝刀松开两个绿色 I/O 托盘螺丝,然后向外拉动拉杆以释放托盘。

    2. 将 I/O 托盘拉出系统,并将其放在坚固、平坦的工作台面上。
      注意
      移除托盘时要小心,因为它又长又重,并且不要从后部连接器处搬运模块。
  5. 移除 I/O 托盘盖。
    1. 松开黑色螺丝,然后将盖子朝您方向推动以释放盖子。

    2. 向上抬起盖子。

  6. 对每个需要更换的网卡执行以下操作。
    1. 为了帮助定位要移除的网卡,请参考服务标签,该标签将 PCIe 总线 ID 映射到插槽号。
    2. 移除固定网卡的螺丝,然后将网卡从插槽中拉出。

    3. 插入更换网卡,并用上一步移除的螺丝固定
  7. 安装 I/O 托盘。
    1. 通过使用导向销和凹槽将 I/O 托盘盖放在模块上方来更换盖子。

    2. 向后滑动盖子,使黑色螺丝与托盘啮合,然后拧紧黑色螺丝以固定盖子。

    3. 将 I/O 托盘推回系统。

    4. 朝中心方向关闭拉杆,确保连接器与中板啮合,然后用手或 2 号十字螺丝刀拧紧手拧螺丝。

  8. 将所有电缆重新连接到 ConnectX-5 网卡端口。
  9. 开启系统电源并登录。
  10. 确认系统运行正常。
    $ sudo nvsm show health
    应没有列出新的警报。

验证 ConnectX-5 网卡

本节介绍验证 ConnectX-5 网卡是否已正确更换所需的步骤。

  1. 在 DGX-2 开机的情况下,验证网卡是否已正确安装并被系统识别。
    $ lspci | grep -i mellanox
    输出应显示所有已安装的 Mellanox 网卡,包括双端口(和可选双端口)网卡。

    示例

     35:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     3a:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     58:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     5d:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     86:00.0 Ethernet controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     86:00.1 Ethernet controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     b8:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     bd:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     e1:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]
     e6:00.0 Infiniband controller: Mellanox Technologies MT27800 Family [ConnectX-5]  
    双端口网卡通过总线 ID 86 识别。查找所有其他网卡。如果未报告八个网卡(总线 ID 86 以外的网卡),则表示网卡未正确安装,应重新插拔。如果出现官方支持的 Mellanox 适配器系列以外的网卡,请联系 NVIDIA 企业支持部门。
  2. 验证固件版本。
    $ cat /sys/class/infiniband/mlx5*/fw_ver
    示例输出
     12.23.1020
     12.23.1020
     12.23.1020
     12.23.1020
     12.23.1020
     12.23.1020
     12.23.1020
     12.23.1020
    每个 DGX OS Server 版本支持的最新 InfiniBand 固件版本如下:
    • 版本 4.x:固件版本 12.23.1020
  3. 如果您需要更新固件,请按照以下步骤操作:
    1. 启动固件更新。
      $ sudo /opt/mellanox/mlnx-fw-updater/mlnx_fw_updater.pl
      脚本将检查每个网卡的固件版本,并在需要时进行更新。如果任何网卡的固件已更新,您将需要重启系统以使更改生效。
    2. 如果指示重启系统,请重启系统。
    3. 重启系统后,验证所有 Mellanox InfiniBand 网卡是否正在使用当前固件。
      $ cat /sys/class/infiniband/mlx5*/fw_ver
       12.23.1020
       12.23.1020
       12.23.1020
       12.23.1020
       12.23.1020
       12.23.1020
       12.23.1020
       12.23.1020
  4. 验证 InfiniBand 网卡的物理端口状态。
    $ ibstat
    在输出文本中,验证每个有电缆连接的网卡的物理状态是否为 链路连接,以及网卡的端口是否配置了 GUID。以下示例输出显示一个网卡处于未连接状态,其余网卡处于连接状态。相关文本以粗体突出显示。
    CA 'mlx5_0'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x248a0703000de288
     System image GUID: 0x248a0703000de288
     Port 1:
           State: Down
           Physical state: Polling
           Rate: 10
           Base lid: 65535
           LMC: 0
           SM lid: 0
           Capability mask: 0x2651e848
           Port GUID: 0x248a0703000de288
           Link layer: InfiniBand
    CA 'mlx5_1'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x248a0703000de26c
     System image GUID: 0x248a0703000de26c
     Port 1:
            State: Initializing
            Physical state: LinkUp
            Rate: 100
            Base lid: 65535
            LMC: 0
            SM lid: 0
            Capability mask: 0x2651e848
            Port GUID: 0x248a0703000de26c
            Link layer: InfiniBand
    CA 'mlx5_2'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x248a0703001effde
     System image GUID: 0x248a0703001effde
     Port 1:
            State: Initializing
            Physical state: LinkUp
            Rate: 100
            Base lid: 65535
            LMC: 0
            SM lid: 0
            Capability mask: 0x2651e848
            Port GUID: 0x248a0703001effde
            Link layer: InfiniBand
    CA 'mlx5_3'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x7cfe900300118f22
     System image GUID: 0x7cfe900300118f22
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f22
             Link layer: InfiniBand
    CA 'mlx5_4'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x7cfe900300118f26
     System image GUID: 0x7cfe900300118f26
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f26
             Link layer: InfiniBand
    CA 'mlx5_5'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x7cfe900300118f25
     System image GUID: 0x7cfe900300118f25
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f25
             Link layer: InfiniBand
    CA 'mlx5_6'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x7cfe900300118f24
     System image GUID: 0x7cfe900300118f24
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f24
             Link layer: InfiniBand
    CA 'mlx5_7'
     CA type: MT4119
     Number of ports: 1
     Firmware version: 12.23.1020
     Hardware version: 0
     Node GUID: 0x7cfe900300118f23
     System image GUID: 0x7cfe900300118f23
     Port 1:
             State: Initializing
             Physical state: LinkUp
             Rate: 100
             Base lid: 65535
             LMC: 0
             SM lid: 0
             Capability mask: 0x2651e848
             Port GUID: 0x7cfe900300118f23
             Link layer: InfiniBand  
请参阅 NVIDIA DGX-2 用户指南的“在 InfiniBand 和以太网之间切换”部分,了解有关在需要时将端口切换到 InfiniBand 或以太网的说明。NVIDIA DGX-2 用户指南