简介#

本主题包含更换 NVIDIA DGX™ H100/H200 系统组件的说明。在尝试对 DGX H100/H200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。这些 DGX H100/H200 系统的条款和条件可以通过 NVIDIA DGX 系统支持 页面找到。

联系 NVIDIA 企业支持以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时,使用 NVIDIA 提供给您的替换件。

客户可更换组件#

DGX H100/H200 系统中客户可更换组件列表。

在尝试对 DGX H100/H200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。这些 DGX H100/H200 系统的条款和条件可以通过 NVIDIA DGX 系统支持 页面找到。

客户可更换单元

联系 NVIDIA 企业支持以获取任何需要退回维修或更换的系统或组件的 RMA 编号。更换组件时,仅使用 NVIDIA 提供给您的替换件。

您可以获取以下组件以在您的数据中心进行更换。

  • 挡板

  • 锁定电源线

  • 电源

  • 风扇模块

  • 前面板控制板

  • U.2 数据驱动器

  • M.2 启动 (OS) 存储驱动器

  • 带 2 个 M.2 驱动器的 Riser 组件

  • ConnectX-7 PCI 卡(存储网络)

  • 50 Gb 以太网 NIC 更换

  • DIMM

  • 机架安装套件

  • 可信平台模块

  • 电池

如果本文档中未包含特定组件的更换说明和指南,请联系 NVIDIA 企业支持。

客户支持#

联系 NVIDIA 企业支持,以获得关于报告、故障排除或诊断 DGX H100/H200 系统问题的帮助。 还可以联系 NVIDIA 企业支持,以获得安装或移动 DGX H100/H200 系统的帮助。

有关如何获得支持的详细信息,请访问 NVIDIA 企业支持网站 (https://www.nvidia.com/en-us/support/enterprise/ )。

运行预检测试#

运行 DGX 压力测试的说明。

NVIDIA 建议在将系统投入生产环境之前或维修后运行预检压力测试。 您可以指定在 GPU、CPU、内存和存储上运行测试,还可以指定测试的持续时间。

要运行测试,请使用 NVSM。

语法:

sudo nvsm stress-test [--usage] [--force] [--no-prompt] [<test>...] [DURATION]

有关运行测试的帮助,请发出以下命令。

sudo nvsm stress-test --usage

推荐命令

以下命令在所有受支持的组件(GPU、CPU、内存和存储)上运行测试,大约需要 20 分钟。

sudo nvsm stress-test --force