介绍#
本主题包含更换 NVIDIA DGX™ B200 系统组件的说明。在尝试对 DGX B200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。有关 DGX B200 系统的这些条款和条件,请访问 NVIDIA DGX Systems Support 页面。
如果任何系统或组件需要退回维修或更换,请联系 NVIDIA 企业支持部门以获取 RMA 编号。更换组件时,请仅使用 NVIDIA 提供给您的替换件。
客户可更换组件#
DGX B200 系统中客户可更换组件列表。
在尝试对 DGX B200 系统进行任何修改或维修之前,请务必熟悉 NVIDIA 条款和条件文档。有关 DGX B200 系统的这些条款和条件,请访问 NVIDIA DGX Systems Support 页面。
客户可更换单元
如果任何系统或组件需要退回维修或更换,请联系 NVIDIA 企业支持部门以获取 RMA 编号。更换组件时,请仅使用 NVIDIA 提供给您的替换件。
您可以在数据中心获得以下组件进行更换。
挡板
锁定电源线
电源
风扇模块
前控制面板
U.2 数据驱动器
M.2 启动 (OS) 存储驱动器
带 2 个 M.2 驱动器的扩展卡组件
ConnectX-7 PCI 卡(存储网络)
50 Gb 以太网 NIC 更换
DIMM
机架安装套件
可信平台模块
电池
如果本文档中未包含特定组件的更换说明和指南,请联系 NVIDIA 企业支持部门。
推荐工具#
以下是演示文稿中概述的步骤所需的工具。每个步骤都将指示不同操作所需的工具。
重要
在操作此设备或在其附近工作时,必须佩戴听力保护装置
笔记本电脑
带有工具和驱动程序的 USB 密钥
带有 DGX 服务器操作系统 ISO 镜像的 USB 密钥
螺丝刀
十字螺丝刀 #1
十字螺丝刀 #2
梅花螺丝刀 T15
梅花螺丝刀 T10
KVM 控制台
静电放电腕带和/或垫
美纹纸胶带或标签机
扎带或 VELCRO® 品牌用于电缆管理
开箱刀
黑色记号笔或标签/标签机,用于电缆识别
包装材料
客户支持#
如果您在报告、排除故障或诊断 DGX B200 系统问题时需要帮助,请联系 NVIDIA 企业支持部门。安装或移动 DGX B200 系统时,也请联系 NVIDIA 企业支持部门寻求帮助。
有关如何获得支持的详细信息,请访问 NVIDIA 企业支持网站 (https://www.nvidia.com/en-us/support/enterprise/ )。
运行预检测试#
运行 DGX 压力测试的说明。
NVIDIA 建议在将系统投入生产环境之前或维修之后运行预检压力测试。您可以指定在 GPU、CPU、内存和存储上运行测试,还可以指定测试的持续时间。
要运行测试,请使用 NVSM。
语法:
sudo nvsm stress-test [--usage] [--force] [--no-prompt] [<test>...] [DURATION]
如需运行测试的帮助,请执行以下操作。
sudo nvsm stress-test --usage
推荐命令
以下命令在所有受支持的组件(GPU、CPU、内存和存储)上运行测试,大约需要 20 分钟。
sudo nvsm stress-test --force