NVIDIA CUDA
NVIDIA CUDA 工具包为构建 GPU 加速应用程序的 C 和 C++ 开发者提供了一个全面的开发环境。借助 CUDA 工具包,您可以在 GPU 加速的嵌入式系统、桌面工作站、企业数据中心、云平台和 HPC 超级计算机上开发、优化和部署您的应用程序。该工具包包括 GPU 加速库、调试和优化工具、C/C++ 编译器以及用于部署应用程序的运行时库。
通过使用内置功能在多 GPU 配置中分配计算,科学家和研究人员可以开发应用程序,使其规模从单 GPU 工作站扩展到拥有数千个 GPU 的云端部署。
通过使用内置功能在多 GPU 配置中分配计算,科学家和研究人员可以开发应用程序,使其规模从单 GPU 工作站扩展到拥有数千个 GPU 的云端部署。
cuBLAS 库是在 NVIDIA CUDA 运行时上实现的基本线性代数子程序 (BLAS)。它使用户能够访问 NVIDIA GPU 的计算资源。
NVIDIA CUDA 快速傅里叶变换 (cuFFT) 库由两个组件组成:cuFFT 和 cuFFTW。cuFFT 库在 NVIDIA GPU 上提供高性能,而 cuFFTW 库是一个移植工具,用于在 NVIDIA GPU 上使用最快的西方傅里叶变换 (FFTW)。
cuFFT 设备扩展 (cuFFTDx) 库使您能够在 CUDA 内核中执行快速傅里叶变换 (FFT) 计算。将 FFT 与其他操作融合可以减少延迟并提高应用程序的性能。
NVIDIA CUDA 随机数生成 (cuRAND) 库提供了一个 API,用于简单高效地生成高质量的伪随机数和准随机数。
cuSPARSE 库包含一组用于处理稀疏矩阵的基本线性代数子程序。它在 NVIDIA CUDA 运行时上实现,旨在从 C 和 C++ 中调用。
cuTENSOR 库是首个 GPU 加速的张量线性代数库,提供高性能的张量缩并、归约和逐元素操作。cuTENSOR 用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理领域的应用。
NVIDIA 性能原语 (NPP) 是一个函数库,用于执行 CUDA 加速的 2D 图像和信号处理。该库广泛适用于这些领域的开发人员,并且编写时旨在最大化灵活性,同时保持高性能。
nvJPEG2000 库提供高性能、GPU 加速的 JPEG2000 解码功能。该库旨在用于深度学习、医学成像、遥感和数字电影应用中常用的 JPEG2000 格式图像。
cuSOLVER 库是一个基于 cuBLAS 和 cuSPARSE 库的高级软件包。它提供类似线性代数软件包 (LAPACK) 的功能,例如用于稠密矩阵的常用矩阵分解和三角求解例程。
cuPQC 库使您能够直接在 CUDA 内核中执行后量子密码学 (PQC) 算法。将 PQC 操作与其他计算融合可以减少延迟并提高应用程序的性能。
cuBLAS 设备扩展 (cuBLASDx) 库使您能够在 CUDA 内核中执行 cuBLAS 中已知的选定线性代数函数。目前仅限于通用矩阵乘法 (GEMM)。将线性代数例程与其他操作融合可以减少延迟并提高应用程序的整体性能。
NVIDIA cuBLASMp 是一个高性能、多进程、GPU 加速的库,用于分布式基本稠密线性代数。
NVIDIA cuDSS (预览版) 是一个包含 GPU 加速的稀疏矩阵线性求解器的库。它提供了用于求解以下类型线性系统的算法:AX=B,其中 A 是稀疏矩阵,B 是右侧项,X 是未知解(可以是矩阵或向量)。cuDSS 功能允许矩阵属性和求解器配置的灵活性,以及 CUDA 流等执行参数的灵活性。
cuEquivariance 是一个 Python 库,旨在促进使用分段张量积构建高性能等变神经网络。cuEquivariance 提供了一个全面的 API,用于描述分段张量积和用于执行它们优化的 CUDA 内核。此外,cuEquivariance 还为 PyTorch 和 JAX 提供绑定,确保广泛的兼容性和易于集成。
NVIDIA cuQuantum SDK 是一个用于量子信息科学及其他领域的高性能库。
nvImageCodec 是一个具有统一接口的加速编解码器库。它被设计为一个扩展模块框架,用于交付编解码器插件。
nvmath-python 是一个 Python 库,旨在通过 NVIDIA 的高性能数学库,在 Python 计算生态系统中实现前沿的性能、生产力和互操作性。
NVIDIA cuSOLVERMp 是一个高性能、分布式内存、GPU 加速的库,它提供了用于求解稠密线性系统和特征值问题的工具。
cuSPARSELt 库提供高性能、结构化、矩阵-稠密矩阵乘法功能。cuSPARSELt 允许用户利用最新 NVIDIA GPU 的计算资源。
NVIDIA GPUDirect Storage (GDS) 为 GPU 内存和存储之间的直接内存访问 (DMA) 传输启用直接数据路径,从而避免了通过 CPU 的反弹缓冲区。此直接路径增加了系统带宽,并减少了 CPU 的延迟和利用率负载。
查找 CUDA 工具包的存档在线文档。这些存档提供了对以前发布的 CUDA 文档版本的访问。