兼容性
- CUDA 兼容性
- CUDA 兼容性文档描述了在具有较旧基础安装的系统上使用新的 CUDA 工具包组件。
监控与管理
- NVML API 参考指南
- NVIDIA 管理库参考。
- nvidia-smi
- nvidia-smi 命令手册页。
- 多进程服务
- 多进程服务 (MPS) 是 CUDA 应用程序编程接口 (API) 的另一种二进制兼容实现。MPS 运行时架构旨在透明地支持协作式多进程 CUDA 应用程序(通常是 MPI 作业)利用最新的 NVIDIA(基于 Kepler)Tesla 和 Quadro GPU 上的 Hyper-Q 功能
- 驱动程序持久性
- 与 NVIDIA GPU 的任何交互都需要内核模式驱动程序的实例正在运行。此驱动程序在某些环境中可能是持久性的,而在其他环境中可能是瞬态的。本文档描述了默认的驱动程序行为以及修改该行为的选项。
健康状况与诊断
- NVIDIA 验证套件用户指南
- NVVS 是系统管理员和集群管理器用于检测和排除影响高性能计算环境中 NVIDIA Tesla GPU 的常见问题的工具。 NVVS 侧重于软件和系统配置问题、诊断、拓扑问题和相对性能。
- HW 现场诊断
- HW 现场诊断是用于验证现场 GPU 硬件完整性的综合工具,并且是 RMA 流程的必需部分。
- RMA 流程
- 必须遵循标准化的流程来识别符合 RMA 条件的产品。本文档概述了该流程。
- 动态页面退役
- NVIDIA 驱动程序支持“退役”包含坏内存单元的帧缓冲区页面。这称为“动态页面退役”,并且对于质量下降的单元自动完成。此功能可以提高原本良好的板卡的寿命,因此是受支持产品(尤其是在 HPC 和企业环境中)的一项重要的弹性功能。
- NVIDIA GPU 内存错误管理
- 本文档介绍了 NVIDIA® 100 GPU 和 NVIDIA 800 GPU 中引入的新的内存错误恢复功能。
- XID 错误
- 本文档解释了 Xid 消息是什么,旨在帮助系统管理员、开发人员和 FAE 理解这些消息背后的含义,以帮助分析和解决与 GPU 相关的问题。
- NVIDIA GPU 调试指南
- 本文档提供了 GPU 错误调试和诊断指南,旨在帮助系统管理员、开发人员和 FAE 尽快恢复服务器运行。