简介
NVIDIA 致力于为企业数据中心级 NVIDIA® Tesla® 图形处理器 (GPU) 产品提供最高水平的质量、可靠性和支持。为此,NVIDIA 在 Tesla RMA 提交流程中专注于两个主要目标
- 快速更换退回的 Tesla GPU 产品
- 全面了解客户观察到的问题和故障,以便
- NVIDIA 重现和确认故障
- 故障的根本原因分析,旨在持续改进产品和未来的 Tesla 产品
NVIDIA 提供本指南旨在确保 RMA 请求者能够提供必要的信息,以满足每个 RMA 请求的这些目标,从而最好地确保此类请求得到快速批准和处理。
工具和诊断
NVIDIA 提供了一些工具来帮助诊断 Tesla GPU 产品上观察到的问题和故障。这些工具包括
- nvidia-bug-report
- nvidia-healthmon
- NVIDIA 现场诊断工具
nvidia-bug-report
nvidia-bug-report.sh 是 NVIDIA Linux 驱动程序附带的 shell 脚本,用于收集系统数据,这些数据对于理解任何报告的现场问题都非常有价值。这包括诸如 lspci 和系统消息日志文件之类的信息,并且还包括 nvidia-smi 信息。它与 NVIDIA 驱动程序一起安装,并放置在 /usr/bin/nvidia-bug-report.sh 中。运行 nvidia-bug-report.sh 将在当前工作目录中生成一个输出文件 nvidia-bug-report.log.tgz。
理想情况下,应在观察到问题后立即运行 nvidia-bug-report.sh。这将收集有关故障的最新信息。
如果报告挂起或未创建完整报告,请重启机器,保存生成的文件,并在重启后再次运行 nvidia-bug-report.sh 以完成日志。这两个日志都应作为任何 RMA 提交的一部分发送给 NVIDIA。
要在 Linux 系统上运行 nvidia-bug-report,请首先以 “root” 身份登录。
- 在命令行 # 输入 nvidia-bug-report.sh
- Nvidia-bug-report.sh 现在将收集有关您系统的信息,并在当前目录中创建文件 “nvidia-bug-report.log.gz”
注意:此文件应包含在任何 RMA 请求中。未能包含此日志文件可能会导致 RMA 请求处理延迟。有关更多信息,请参阅标题为 “RMA 清单和流程图” 的部分。 |
nvidia-healthmon
nvidia-healthmon 检测并排除影响高性能计算环境中 Tesla GPU 的常见问题。 nvidia-healthmon 包含有限的硬件诊断功能,而是侧重于软件和系统配置问题。 nvidia-healthmon 旨在发现影响 GPU 运行计算作业能力的常见问题,包括
- 软件配置问题
- 系统配置问题
- 系统组装问题,例如电缆松动
- 数量有限的硬件问题
要在所有受支持的 GPU 上使用默认行为从命令行运行 nvidia-healthmon
user@hostname$ nvidia-healthmon
nvidia-healthmon 完成对所有指定设备的执行诊断后将终止。当 nvidia-healthmon 成功运行时,将使用退出代码零。非零退出代码表示 nvidia-healthmon 运行存在问题。必须读取应用程序的输出以确定确切的问题。 nvidia-healthmon 的输出可能包括旨在解决常见问题的故障排除报告,并且通常会建议许多可能的解决方案。应自上而下地执行这些故障排除步骤,因为最可能的解决方案列在顶部。
有关更多详细信息、命令行参数、配置选项以及解释工具结果的说明,请参阅 nvidia-healthmon 用户指南。
NVIDIA 现场诊断工具
NVIDIA 现场诊断工具是一款全面的基于 Linux 的硬件诊断工具,可确认 GPU 中数值处理 Linux 引擎、进出 GPU 的数据传输完整性以及 NVIDIA® CUDA® 程序可用的完整板载内存地址空间的测试覆盖率。如果无法识别(例如,通过 nvidia-healthmon)和解决任何软件或系统配置问题,则应运行 NVIDIA 现场诊断工具以确定 Tesla GPU 是否可能有故障。
- NVIDIA 现场诊断工具可以使用命令 “./fieldiag” 运行
注意:NVIDIA Tesla GPU 产品默认启用 ECC 内存保护。 NVIDIA 现场诊断工具仅在启用 ECC 的板卡上运行。如果用户之前在可疑板卡上禁用了 ECC,则必须在该板卡上运行 NVIDIA 现场诊断工具之前重新启用 ECC。 NVIDIA 将不接受仅在禁用 ECC 的情况下发生的故障的 RMA 请求。任何故障都必须在启用 ECC 的情况下发生,才有资格进行 RMA 退货。 |
有关更多详细信息或特定于产品的命令行参数,请参阅 NVIDIA 现场诊断工具软件包中包含的 NVIDIA 现场诊断工具快速入门指南 (DU-05711-001) 和 NVIDIA 现场诊断工具软件指南 (DU-05363-001)。
诊断完成后,将生成 fieldiag.log 文件。
注意:此文件应包含在任何 RMA 请求中。未能包含此日志文件可能会导致 RMA 请求处理延迟。有关更多信息,请参阅标题为 “RMA 清单和流程图” 的部分。 |
NVIDIA 现场诊断工具的通过结果表明 NVIDIA Tesla GPU 硬件状况良好,并指向潜在的软件应用程序级别问题。
注意:如果 NVIDIA 现场诊断工具返回通过结果,NVIDIA 请求提供数据,说明故障跟随特定的 NVIDIA Tesla GPU 板卡以及观察到的故障的详细信息。拥有这些数据将更好地帮助 NVIDIA 重现问题并解决现有诊断程序中任何潜在的测试弱点。 |
常见系统级问题
根据观察到的问题的类型和严重程度,在某些情况下可能无法运行 nvidia-bug-report、nvidia-healthmon 或现场诊断工具。为了更好地确保故障归因于 Tesla GPU 而不是系统级问题,并避免因此导致 RMA 请求处理的任何潜在延迟,NVIDIA 建议采取以下步骤进一步隔离故障原因。
- 除了 PCIe 插槽连接器提供的电源外,Tesla GPU 板卡还需要来自主系统的额外电源。确保适当的 PCIe 8 针和/或 6 针辅助电源线已正确连接到板卡。查阅所用特定 Tesla GPU 的产品规格,以确定该特定产品的辅助电源要求。
- 从系统中物理移除 Tesla GPU 板卡并重新安装,以确保其完全插入 PCIe 插槽。
- 如果可用,请用已知良好的板卡替换可疑的 Tesla GPU,以确认观察到的问题或故障不会在更换后发生。
- 如果可能,请将可疑的 Tesla GPU 安装在不同的系统中,以确定观察到的问题或故障是否跟随板卡(或系统)。
注意:RMA 提交过程将请求信息,证明已消除常见的系统级原因。提交 RMA 时提供步骤 1 至步骤 4 中描述的信息,表明已消除系统级问题,将有助于加快 RMA 批准过程。 |
RMA 清单和流程图
表 1. RMA 清单
勾选 | 项目 |
nvidia-bug-report 日志文件 (nvidia-bug-report.log.gz) |
|
NVIDIA 现场诊断工具日志文件 (fieldiag.log) |
|
如果 NVIDIA 现场诊断工具返回通过结果,或者观察到的故障导致 NVIDIA 工具和诊断程序无法运行,则应在 RMA 请求中包含以下信息 为消除常见系统级原因而采取的步骤 -检查 PCIe 辅助电源连接 -验证板卡在 PCIe 插槽中的插拔情况 -确定故障是否跟随板卡或系统 观察到的故障的详细信息 -故障发生时正在运行的应用程序 -产品发生故障的方式描述 -重现问题的逐步说明 -故障频率 |
|
板卡是否有任何已知或明显的物理损坏? |
|
在 http://portal.nvidia.com 提交 RMA 请求 |
注意:NVIDIA Tesla GPU 产品默认启用 ECC 内存保护。 NVIDIA 将不接受仅在禁用 ECC 的情况下发生的故障的 RMA 请求。任何故障都必须在启用 ECC 的情况下发生,才有资格进行 RMA 退货。
通知
通知
所有 NVIDIA 设计规范、参考板、文件、图纸、诊断程序、列表和其他文档(统称和单独称为“材料”)均按“原样”提供。 NVIDIA 对材料不作任何明示、暗示、法定或其他方面的保证,并明确否认所有关于不侵权、适销性和特定用途适用性的暗示保证。
提供的信息被认为是准确和可靠的。但是,NVIDIA 公司对使用此类信息造成的后果或因使用此类信息而可能导致的侵犯第三方专利或其他权利的行为不承担任何责任。 NVIDIA 公司未通过暗示或其他方式授予任何专利权许可。本出版物中提及的规格如有更改,恕不另行通知。本出版物取代并替换之前提供的所有其他信息。未经 NVIDIA 公司明确书面批准,NVIDIA 公司产品不得用作生命支持设备或系统中的关键组件。