网络适配器更换#
网络适配器更换概述#
这是更换 DGX A100 系统上一个或多个网络适配器的高级概述。
使用
nvsm show
命令来识别故障网络适配器。从 NVIDIA 企业支持部门获取更换卡。
关闭系统。
标记所有主板托架电缆并拔下它们。
卸下主板托架并打开盖子。
找到故障网络适配器并将其卸下。
将新卡插入插槽并用螺丝固定。
关闭主板托架上的盖子,然后将托架插入系统。
使用标签作为参考,插入所有电缆。
开启系统电源。
使用 nvsm 验证网络适配器是否运行正常。
识别故障网络适配器#
在尝试更换任何网络适配器之前,请务必执行以下操作
发出以下命令。
$ sudo nvsm show health
使用以下图表将故障卡的 PCIe 总线 ID 与插槽 ID 匹配。
记下插槽 ID 以进行订购和更换。
按照下表所示订购适当的卡类型,然后按照相应的更换说明进行操作。
更换垂直网络适配器#
在尝试更换任何网络适配器之前,请务必执行以下操作
确定需要更换的故障网络适配器的位置 ID。
请参阅 识别故障网络适配器。
已获得更换网络适配器,并保存了包装,以便在退回故障组件时使用。
注意
静电敏感设备:- 务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。
关闭系统电源。
标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。
拔下所有电源线以及所有网络、显示器和 USB 电缆。
卸下主板托架。
请参阅 访问主板托架 部分中的说明。
将网络适配器从主板上抬起,并更换为新的网络适配器。
安装主板托架盖,然后安装主板托架。
请参阅 更换主板托架 部分中的说明。
将所有电缆连接到主板托架,连接所有电源线,然后开启系统电源并登录。
确认系统运行正常。
$ sudo nvsm show health
不应列出新的警报。
根据 更新 Mellanox 网络适配器固件 中的说明,验证固件是否为最新版本。
更换水平网络适配器#
在尝试更换任何网络适配器之前,请务必执行以下操作
确定需要更换的故障网络适配器的位置 ID。
请参阅 识别故障网络适配器。
已获得更换网络适配器,并保存了包装,以便在退回故障组件时使用。
注意
静电敏感设备:- 务必遵守静电放电 (ESD) 防护的最佳实践。这包括确保人员和设备连接到公共接地,例如佩戴连接到机箱接地的腕带,并将组件放置在防静电工作表面上。
关闭系统电源。
标记连接到主板托架的所有网络、显示器和 USB 电缆,以便于重新连接时识别。
拔下所有电源线以及所有网络、显示器和 USB 电缆。
卸下主板托架。
请参阅 访问主板托架 部分中的说明。
解锁水平网络适配器。
拧松黑色翼形螺钉,该螺钉将 PCIe 卡锁定机构固定到位。
旋转 90 度或更多,打开锁定机构。
更换卡。
将网络适配器从转接卡插槽中拔出。
用新网络适配器更换旧的网络适配器。
将网络适配器安装到转接卡插槽中。
将网络适配器锁定到位。
将锁定机构转回其插槽,关闭锁定机构。
拧紧黑色翼形螺钉以将卡固定到位。
安装主板托架盖,然后安装主板托架。
请参阅 更换主板托架 部分中的说明。
将所有电缆重新连接到网络适配器端口。
开启系统电源并登录。
确认系统运行正常。
$ sudo nvsm show health
不应列出新的警报。
根据 更新 Mellanox 网络适配器固件 中的说明,验证固件是否为最新版本。