兼容性


CUDA 兼容性
CUDA 兼容性文档描述了在具有较旧基础安装的系统上使用新的 CUDA 工具包组件。

监控与管理


NVML API 参考指南
NVIDIA 管理库参考。
nvidia-smi
nvidia-smi 命令手册页。
多进程服务
多进程服务 (MPS) 是 CUDA 应用程序编程接口 (API) 的另一种二进制兼容实现。MPS 运行时架构旨在透明地支持协作式多进程 CUDA 应用程序(通常是 MPI 作业)利用最新的 NVIDIA(基于 Kepler)Tesla 和 Quadro GPU 上的 Hyper-Q 功能
驱动程序持久性
与 NVIDIA GPU 的任何交互都需要内核模式驱动程序的实例正在运行。此驱动程序在某些环境中可能是持久性的,而在其他环境中可能是瞬态的。本文档描述了默认的驱动程序行为以及修改该行为的选项。

健康状况与诊断


NVIDIA 验证套件用户指南
NVVS 是系统管理员和集群管理器用于检测和排除影响高性能计算环境中 NVIDIA Tesla GPU 的常见问题的工具。 NVVS 侧重于软件和系统配置问题、诊断、拓扑问题和相对性能。
HW 现场诊断
HW 现场诊断是用于验证现场 GPU 硬件完整性的综合工具,并且是 RMA 流程的必需部分。
RMA 流程
必须遵循标准化的流程来识别符合 RMA 条件的产品。本文档概述了该流程。
动态页面退役
NVIDIA 驱动程序支持“退役”包含坏内存单元的帧缓冲区页面。这称为“动态页面退役”,并且对于质量下降的单元自动完成。此功能可以提高原本良好的板卡的寿命,因此是受支持产品(尤其是在 HPC 和企业环境中)的一项重要的弹性功能。
NVIDIA GPU 内存错误管理
本文档介绍了 NVIDIA® 100 GPU 和 NVIDIA 800 GPU 中引入的新的内存错误恢复功能。
XID 错误
本文档解释了 Xid 消息是什么,旨在帮助系统管理员、开发人员和 FAE 理解这些消息背后的含义,以帮助分析和解决与 GPU 相关的问题。
NVIDIA GPU 调试指南
本文档提供了 GPU 错误调试和诊断指南,旨在帮助系统管理员、开发人员和 FAE 尽快恢复服务器运行。