简介#
本主题包含更换 NVIDIA DGX™ H100/H200 系统组件的说明。在尝试对 DGX H100/H200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。这些 DGX H100/H200 系统的条款和条件可以通过 NVIDIA DGX 系统支持 页面找到。
联系 NVIDIA 企业支持以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时,仅使用 NVIDIA 提供给您的替换件。
客户可更换组件#
DGX H100/H200 系统中客户可更换组件列表。
在尝试对 DGX H100/H200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。这些 DGX H100/H200 系统的条款和条件可以通过 NVIDIA DGX 系统支持 页面找到。
客户可更换单元
联系 NVIDIA 企业支持以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时,仅使用 NVIDIA 提供给您的替换件。
您可以获取以下组件以在您的数据中心进行更换。
挡板
锁定电源线
电源
风扇模块
前面板控制板
U.2 数据驱动器
M.2 启动 (OS) 存储驱动器
带 2 个 M.2 驱动器的 Riser 组件
ConnectX-7 PCI 卡(存储网络)
50 Gb 以太网 NIC 更换
DIMM
机架安装套件
可信平台模块
电池
如果本文档中未包含特定组件的更换说明和指南,请联系 NVIDIA 企业支持。
推荐工具#
以下是演示文稿中概述的步骤所需的工具。每个步骤都将指示不同操作所需的工具。
重要提示
在操作此设备或在其附近工作时,必须佩戴听力保护装置
笔记本电脑
带有工具和驱动程序的 USB 密钥
已映像 DGX 服务器 OS ISO 的 USB 密钥
螺丝刀
十字 #1
十字 #2
Torx T15
Torx T10
KVM 崩溃车
静电放电腕带和/或垫
遮蔽胶带或标签制作器
扎带或 VELCRO® 品牌用于电缆管理
开箱刀
黑色永久性记号笔或标签/标签机,用于电缆识别
包装材料
客户支持#
联系 NVIDIA 企业支持,以获得关于报告、故障排除或诊断 DGX H100/H200 系统问题的帮助。 还可以联系 NVIDIA 企业支持,以获得安装或移动 DGX H100/H200 系统的帮助。
有关如何获得支持的详细信息,请访问 NVIDIA 企业支持网站 (https://www.nvidia.com/en-us/support/enterprise/ )。
运行预检测试#
运行 DGX 压力测试的说明。
NVIDIA 建议在将系统投入生产环境之前或维修后运行预检压力测试。 您可以指定在 GPU、CPU、内存和存储上运行测试,还可以指定测试的持续时间。
要运行测试,请使用 NVSM。
语法:
sudo nvsm stress-test [--usage] [--force] [--no-prompt] [<test>...] [DURATION]
有关运行测试的帮助,请发出以下命令。
sudo nvsm stress-test --usage
推荐命令
以下命令在所有受支持的组件(GPU、CPU、内存和存储)上运行测试,大约需要 20 分钟。
sudo nvsm stress-test --force