目录#
- 1. NVIDIA GPUDirect Storage 安装和故障排除指南
- 2. 简介
- 3. 安装 GPUDirect Storage
- 4. API 错误
- 5. 基本故障排除
- 5.1. GDS 库的日志文件
- 5.2. 为每个应用程序启用不同的 cufile.log 文件
- 5.3. 启用跟踪 GDS 库 API 调用
- 5.4. cuFileHandleRegister 错误
- 5.5. 排除返回 cuFile 错误的应用程序故障
- 5.6. cuFile-* 错误,GPUDirect Storage 统计信息中无活动
- 5.7. CUDA 运行时和驱动程序不匹配,错误代码 35
- 5.8. 运行 cuFile-* API 时出现 CUDA API 错误
- 5.9. 查找 GDS 驱动程序统计信息
- 5.10. 跟踪通过 GDS 驱动程序的 IO 活动
- 5.11. GDS 统计信息中的读取/写入带宽和延迟数字
- 5.12. 跟踪 GPU 缓冲区的注册和注销
- 5.13. 为用户空间文件系统启用特定于 RDMA 的日志记录
- 5.14. 安装后出现 CUDA_ERROR_SYSTEM_NOT_READY
- 5.15. 为 RAID 卷添加 udev 规则
- 5.16. 当您在 NVMe 驱动器上观察到“写入不完整”时
- 5.17. CUFILE 异步 I/O 失败
- 6. 高级故障排除
- 6.1. 解决无响应的挂起 cuFile* API
- 6.2. 向客户支持发送相关数据
- 6.3. 解决 EIO 和堆栈跟踪警告的 IO 失败
- 6.4. 控制 GPU BAR 内存使用量
- 6.5. 确定要预留的缓存量
- 6.6. 监控 BAR 内存使用量
- 6.7. 解决 ENOMEM 错误代码
- 6.8. GDS 和兼容模式
- 6.9. 启用兼容模式
- 6.10. 启用兼容模式后跟踪 IO
- 6.11. 绕过 GPUDirect Storage
- 6.12. GDS 不适用于挂载
- 6.13. 在同一文件上同时运行 GPUDirect Storage IO 和 POSIX IO
- 6.14. 使用 GPUDirect Storage 运行数据验证测试
- 7. 性能故障排除
- 8. IO 活动故障排除
- 9. EXAScaler 文件系统 LNet 故障排除
- 10. 了解 EXAScaler 文件系统性能
- 11. WekaIO 文件系统的故障排除和常见问题解答
- 11.1. 下载 WekaIO 客户端软件包
- 11.2. 确定 WekaIO 版本是否已准备好用于 GDS
- 11.3. 挂载 WekaIO 文件系统集群
- 11.4. 解决挂载失败问题
- 11.5. 解决 WekaIO 两个内核的 100% 使用率问题
- 11.6. 检查 Weka 文件系统中是否存在现有挂载
- 11.7. 检查 WekaIO 文件系统状态摘要
- 11.8. 显示 WekaIO 文件系统统计信息摘要
- 11.9. 为什么 WekaIO 写入通过 POSIX
- 11.10. 检查 nvidia-fs.ko 对内存对等直接的支持
- 11.11. 检查内存对等直接统计信息
- 11.12. 检查 WekaIO 文件系统的相关 nvidia-fs 统计信息
- 11.13. 进行基本的 WekaIO 文件系统测试
- 11.14. 卸载 WekaIO 文件系统集群
- 11.15. 验证 WekaIO 文件系统的已安装库
- 11.16. 支持 WekaIO 文件系统的 GDS 配置文件更改
- 11.17. 检查 WekaIO 文件系统的相关用户空间统计信息
- 11.18. 检查 WekaFS 支持
- 12. 启用 IBM Spectrum Scale 对 GDS 的支持
- 12.1. IBM Spectrum Scale 对 GDS 的限制
- 12.2. 检查 nvidia-fs.ko 对 Mellanox PeerDirect 的支持
- 12.3. 验证 IBM Spectrum Scale 的已安装库
- 12.4. 检查 PeerDirect 统计信息
- 12.5. 检查 IBM Spectrum Scale 的相关 nvidia-fs 统计信息
- 12.6. 每个进程的 IBM Spectrum Scale 的 GDS 用户空间统计信息
- 12.7. 支持 IBM Spectrum Scale 的 GDS 配置
- 12.8. 回退到兼容模式的场景
- 12.9. IBM Spectrum Scale 的 GDS 限制
- 13. NetApp E 系列 BeeGFS 与 GDS 解决方案部署
- 14. 设置 VAST Data (NFSoRDMA+MultiPath) 并排除故障
- 15. 使用 Linux PCI P2PDMA 排除 NVMe 支持故障和常见问题解答
- 16. 使用 nvidia-fs 排除 NVMe 和 NVMeOF 支持故障和常见问题解答
- 17. 显示 GDS NVIDIA FS 驱动程序统计信息
- 17.1. nvidia-fs 统计信息
- 17.2. 分析每个 GPU 的统计信息
- 17.3. 重置 nvidia-fs 统计信息
- 17.4. 检查内核文件系统和存储驱动程序的对等点亲缘性统计信息
- 17.5. 检查内核文件系统和存储驱动程序的对等点亲缘性使用情况
- 17.6. 显示 GPU 到对等点的距离表
- 17.7. GDSIO 工具
- 17.8. 表格字段
- 17.9. gdscheck 工具
- 17.10. GPUDirect Storage 的 NFS 支持
- 17.11. NFS GPUDirect Storage 统计信息和调试
- 17.12. GPUDirect Storage IO 行为
- 17.13. 动态路由的 GDS 统计信息
- 18. GDS 库跟踪
- 18.1. 示例:显示跟踪点
- 18.2. 示例:跟踪发出 cuFileRead/cuFileWrite 的进程的 IO 活动
- 18.3. 示例:显示通过 GDS 的所有 IO 的 IO 模式
- 18.4. 了解进程的 IO 模式
- 18.5. 具有不同 GPU 上文件描述符的进程的 IO 模式
- 18.6. 确定 GPU 中进程的 IOPS 和带宽
- 18.7. 显示发出 cuFileRead 的进程的读取频率
- 18.8. 显示 cuFileRead 耗时超过 0.1 毫秒时的读取频率
- 18.9. 显示每个进程的 cuFileRead 延迟
- 18.10. 示例:跟踪发出 cuFileBufRegister 的进程
- 18.11. 示例:跟踪进程在调用 cuFileBufRegister 时是否恒定
- 18.12. 示例:监控正在通过反弹缓冲区的 IO
- 18.13. 示例:跟踪 cuFileRead 和 cuFileWrite 失败、打印、错误代码和失败时间
- 18.14. 示例:每个 GDS 进程的用户空间统计信息
- 18.15. 示例:查看进程的 GDS 用户级别统计信息
- 18.16. 示例:显示每个 GDS 进程的示例用户级别统计信息
- 19. GPUDirect Storage 中的用户空间计数器
- 20. GPUDirect Storage 中的用户空间 RDMA 计数器
- 21. 诊断问题速查表