目录
- 1. 简介
- 2. 编程指南
- 3. 参考
- 3.1. 新的子程序和函数属性
- 3.2. 变量属性
- 3.3. 分配设备内存、固定内存和托管内存
- 3.4. 主机和设备内存之间的数据传输
- 3.5. 调用内核子程序
- 3.6. 设备代码
- 3.7. 主机代码
- 3.8. Fortran 设备模块
- 3.9. Fortran 主机模块
- 3.9.1. CUDAFOR 中重载的 Fortran 归约内置函数
- 3.9.2. Fortran 排序子程序模块
- 3.9.3. CUTENSOREX 中重载的 Fortran 归约内置函数
- 3.9.4. CUTENSOREX 中重载的 Fortran 数组内置函数
- 3.9.4.1. Fortran MERGE 内置函数
- 3.9.4.2. Fortran PACK 内置函数
- 3.9.4.3. Fortran PACKLOC 函数
- 3.9.4.4. Fortran UNPACK 内置函数
- 3.9.4.5. Fortran COUNT_PREFIX 内置函数
- 3.9.4.6. Fortran SUM_PREFIX 内置函数
- 3.9.4.7. Fortran RESHAPE 内置函数
- 3.9.4.8. Fortran TRANSPOSE 内置函数
- 3.9.4.9. Fortran SPREAD 内置函数
- 3.9.4.10. Fortran MATMUL 内置函数
- 3.9.4.11. Fortran DOT_PRODUCT 内置函数
- 3.9.4.12. Fortran RANDOM_NUMBER 内置函数
- 3.9.5. 其他 CUDA 库主机模块
- 4. 运行时 API
- 4.1. 初始化
- 4.2. 设备管理
- 4.2.1. cudaChooseDevice
- 4.2.2. cudaDeviceGetAttribute
- 4.2.3. cudaDeviceGetCacheConfig
- 4.2.4. cudaDeviceGetLimit
- 4.2.5. cudaDeviceGetSharedMemConfig
- 4.2.6. cudaDeviceGetStreamPriorityRange
- 4.2.7. cudaDeviceReset
- 4.2.8. cudaDeviceSetCacheConfig
- 4.2.9. cudaDeviceSetLimit
- 4.2.10. cudaDeviceSetSharedMemConfig
- 4.2.11. cudaDeviceSynchronize
- 4.2.12. cudaGetDevice
- 4.2.13. cudaGetDeviceCount
- 4.2.14. cudaGetDeviceProperties
- 4.2.15. cudaSetDevice
- 4.2.16. cudaSetDeviceFlags
- 4.2.17. cudaSetValidDevices
- 4.3. 线程管理
- 4.4. 错误处理
- 4.5. 流管理
- 4.5.1. cudaforGetDefaultStream
- 4.5.2. cudaforSetDefaultStream
- 4.5.3. cudaStreamAttachMemAsync
- 4.5.4. cudaStreamCreate
- 4.5.5. cudaStreamCreateWithFlags
- 4.5.6. cudaStreamCreateWithPriority
- 4.5.7. cudaStreamDestroy
- 4.5.8. cudaStreamGetPriority
- 4.5.9. cudaStreamQuery
- 4.5.10. cudaStreamSynchronize
- 4.5.11. cudaStreamWaitEvent
- 4.6. 事件管理
- 4.7. 执行控制
- 4.8. 占用率
- 4.9. 内存管理
- 4.9.1. cudaFree
- 4.9.2. cudaFreeArray
- 4.9.3. cudaFreeAsync
- 4.9.4. cudaFreeHost
- 4.9.5. cudaGetSymbolAddress
- 4.9.6. cudaGetSymbolSize
- 4.9.7. cudaHostAlloc
- 4.9.8. cudaHostGetDevicePointer
- 4.9.9. cudaHostGetFlags
- 4.9.10. cudaHostRegister
- 4.9.11. cudaHostUnregister
- 4.9.12. cudaMalloc
- 4.9.13. cudaMallocArray
- 4.9.14. cudaMallocAsync
- 4.9.15. cudaMallocManaged
- 4.9.16. cudaMallocPitch
- 4.9.17. cudaMalloc3D
- 4.9.18. cudaMalloc3DArray
- 4.9.19. cudaMemAdvise
- 4.9.20. cudaMemcpy
- 4.9.21. cudaMemcpyArrayToArray
- 4.9.22. cudaMemcpyAsync
- 4.9.23. cudaMemcpyFromArray
- 4.9.24. cudaMemcpyFromSymbol
- 4.9.25. cudaMemcpyFromSymbolAsync
- 4.9.26. cudaMemcpyPeer
- 4.9.27. cudaMemcpyPeerAsync
- 4.9.28. cudaMemcpyToArray
- 4.9.29. cudaMemcpyToSymbol
- 4.9.30. cudaMemcpyToSymbolAsync
- 4.9.31. cudaMemcpy2D
- 4.9.32. cudaMemcpy2DArrayToArray
- 4.9.33. cudaMemcpy2DAsync
- 4.9.34. cudaMemcpy2DFromArray
- 4.9.35. cudaMemcpy2DToArray
- 4.9.36. cudaMemcpy3D
- 4.9.37. cudaMemcpy3DAsync
- 4.9.38. cudaMemGetInfo
- 4.9.39. cudaMemPrefetchAsync
- 4.9.40. cudaMemset
- 4.9.41. cudaMemsetAsync
- 4.9.42. cudaMemset2D
- 4.9.43. cudaMemset3D
- 4.10. 统一寻址和对等设备内存访问
- 4.11. 版本管理
- 4.12. 性能分析管理
- 4.13. CUDA 图管理
- 5. 示例