NVIDIA CUDA - NVIDIA 文档

最新 CUDA 版本
数学库
技术
存档

NVIDIA CUDA 工具包为构建 GPU 加速应用程序的 C 和 C++ 开发者提供了一个全面的开发环境。借助 CUDA 工具包，您可以在 GPU 加速的嵌入式系统、桌面工作站、企业数据中心、云平台和 HPC 超级计算机上开发、优化和部署您的应用程序。该工具包包括 GPU 加速库、调试和优化工具、C/C++ 编译器以及用于部署应用程序的运行时库。

通过使用内置功能在多 GPU 配置中分配计算，科学家和研究人员可以开发应用程序，使其规模从单 GPU 工作站扩展到拥有数千个 GPU 的云端部署。

NVIDIA cuBLAS

cuBLAS 库是在 NVIDIA CUDA 运行时上实现的基本线性代数子程序 (BLAS)。它使用户能够访问 NVIDIA GPU 的计算资源。

浏览

NVIDIA cuFFT

NVIDIA CUDA 快速傅里叶变换 (cuFFT) 库由两个组件组成：cuFFT 和 cuFFTW。cuFFT 库在 NVIDIA GPU 上提供高性能，而 cuFFTW 库是一个移植工具，用于在 NVIDIA GPU 上使用最快的西方傅里叶变换 (FFTW)。

浏览

NVIDIA cuFFTDx

cuFFT 设备扩展 (cuFFTDx) 库使您能够在 CUDA 内核中执行快速傅里叶变换 (FFT) 计算。将 FFT 与其他操作融合可以减少延迟并提高应用程序的性能。

浏览

NVIDIA cuRAND

NVIDIA CUDA 随机数生成 (cuRAND) 库提供了一个 API，用于简单高效地生成高质量的伪随机数和准随机数。

浏览

NVIDIA cuSPARSE

cuSPARSE 库包含一组用于处理稀疏矩阵的基本线性代数子程序。它在 NVIDIA CUDA 运行时上实现，旨在从 C 和 C++ 中调用。

浏览

nvCOMP

nvCOMP 库使用 GPU 提供快速无损数据压缩和解压缩。它具有通用的压缩接口，使开发人员能够在他们的应用程序中使用高性能 GPU 压缩器。

浏览

NVIDIA cuTENSOR

cuTENSOR 库是首个 GPU 加速的张量线性代数库，提供高性能的张量缩并、归约和逐元素操作。cuTENSOR 用于加速深度学习训练和推理、计算机视觉、量子化学和计算物理领域的应用。

浏览

NVIDIA NPP

NVIDIA 性能原语 (NPP) 是一个函数库，用于执行 CUDA 加速的 2D 图像和信号处理。该库广泛适用于这些领域的开发人员，并且编写时旨在最大化灵活性，同时保持高性能。

浏览

nvJPEG

nvJPEG 库提供高性能、GPU 加速的 JPEG 编码和解码功能。该库旨在用于深度学习和超大规模多媒体应用中常用的图像格式。

浏览

nvJPEG2000

nvJPEG2000 库提供高性能、GPU 加速的 JPEG2000 解码功能。该库旨在用于深度学习、医学成像、遥感和数字电影应用中常用的 JPEG2000 格式图像。

浏览

nvTIFF

nvTIFF 库加速了在 NVIDIA GPU 上使用 LZW 压缩的 TIFF 图像的解码和编码。该库构建于 CUDA ® 平台之上，并在 Volta+ GPU 架构上受支持。

浏览

NVIDIA cuSOLVER

cuSOLVER 库是一个基于 cuBLAS 和 cuSPARSE 库的高级软件包。它提供类似线性代数软件包 (LAPACK) 的功能，例如用于稠密矩阵的常用矩阵分解和三角求解例程。

浏览

NVIDIA cuPQC

cuPQC 库使您能够直接在 CUDA 内核中执行后量子密码学 (PQC) 算法。将 PQC 操作与其他计算融合可以减少延迟并提高应用程序的性能。

浏览

NVIDIA cuBLASDx

cuBLAS 设备扩展 (cuBLASDx) 库使您能够在 CUDA 内核中执行 cuBLAS 中已知的选定线性代数函数。目前仅限于通用矩阵乘法 (GEMM)。将线性代数例程与其他操作融合可以减少延迟并提高应用程序的整体性能。

浏览

NVIDIA cuBLASMp

NVIDIA cuBLASMp 是一个高性能、多进程、GPU 加速的库，用于分布式基本稠密线性代数。

浏览

NVIDIA cuDSS

NVIDIA cuDSS (预览版) 是一个包含 GPU 加速的稀疏矩阵线性求解器的库。它提供了用于求解以下类型线性系统的算法：AX=B，其中 A 是稀疏矩阵，B 是右侧项，X 是未知解（可以是矩阵或向量）。cuDSS 功能允许矩阵属性和求解器配置的灵活性，以及 CUDA 流等执行参数的灵活性。

浏览

NVIDIA cuEquivariance

cuEquivariance 是一个 Python 库，旨在促进使用分段张量积构建高性能等变神经网络。cuEquivariance 提供了一个全面的 API，用于描述分段张量积和用于执行它们优化的 CUDA 内核。此外，cuEquivariance 还为 PyTorch 和 JAX 提供绑定，确保广泛的兼容性和易于集成。

浏览

NVIDIA cuQuantum

NVIDIA cuQuantum SDK 是一个用于量子信息科学及其他领域的高性能库。

浏览

nvImageCodec

nvImageCodec 是一个具有统一接口的加速编解码器库。它被设计为一个扩展模块框架，用于交付编解码器插件。

浏览

nvmath-python

nvmath-python 是一个 Python 库，旨在通过 NVIDIA 的高性能数学库，在 Python 计算生态系统中实现前沿的性能、生产力和互操作性。

浏览

NVIDIA cuSOLVERMp

NVIDIA cuSOLVERMp 是一个高性能、分布式内存、GPU 加速的库，它提供了用于求解稠密线性系统和特征值问题的工具。