发行说明#

本节包括重大更改、新功能、性能改进和各种问题。除非另有说明,否则列出的问题不应影响功能。当功能受到影响时,我们会提供一种解决方法来避免该问题(如果可用)。

NVPL FFT 0.4.0 EA (nvpl-25.01-beta)#

NVPL FFT 库的第 4 个早期访问版本。

新功能#

  • 增加了对现代和旧版 FFTW Fortran 接口的支持。

  • nvpl_fftw.h 现在也可以在 include/nvpl_fftw/ 中找到,名称为 fftw3.h

  • 改进了尺寸范围为 2 到 512 的复数到复数、复数到实数和实数到复数变换的单线程和多线程性能。

表:尺寸为 \(2^i\times 3^j\times 5^k\times 7^j \leq 512\) 时,NVPL FFT 0.4.0 相对于 NVPL FFT 0.3.0 的几何平均加速比。#

复数到复数

实数到复数

复数到实数

FP32

1.04

1.20

1.20

FP64

1.05

5.65

6.58

_images/nvpl_fft_0_4_0_perf.png

已知问题#

  • 对于秩为 2 及更高的实数到复数和复数到实数原位变换,与 FFTW 相比,数据布局存在其他约束

NVPL FFT 0.3.0 EA (nvpl-24.07-beta)#

NVPL FFT 库的第 3 个早期访问版本。

新功能#

  • 改进了尺寸范围为 2 到 512 的双精度复数到复数变换的单线程和多线程性能。

  • 改进了尺寸范围为 2 到 512 的单精度复数到实数和实数到复数变换的单线程和多线程性能。

已知问题#

  • 不适用

NVPL FFT 0.2.0 EA (nvpl-24.03-beta)#

NVPL FFT 库的第 2 个早期访问版本。

新功能#

  • 改进了单精度和双精度复数到复数变换的单线程和多线程性能。

  • 提高了多线程 NVPL FFT 的可扩展性。

已知问题#

  • 不适用

已解决问题#

  • NVPL FFT 采用了不同的线程实现方式(请参阅基于 OpenMP 的线程)。设置 OMP_PROC_BIND 环境变量(或 OMP_PLACES)将不再对多线程性能产生负面影响。

NVPL FFT 0.1.0 EA (nvpl-23.11-beta)#

NVPL FFT 库的第一个早期访问版本。

新功能#

  • 支持使用 FFTW API 计算单精度和双精度一维、二维、三维复数到复数、实数到复数、复数到实数 DFT,具有任意大小和步幅。

  • 支持单线程和多线程 FFT 计算。

已知问题#

  • 某些支持的 FFT 大小(包括复合大小和大于 50K 元素的大小)未得到充分优化。

  • NVPL FFT 尊重原始线程 affinity 掩码。对于使用 OpenMP 运行时构建的应用程序,线程 affinity 的控制(通过 OMP_PROC_BINDOMP_PLACES 环境变量)可能会对多线程性能产生负面影响。

已解决问题#

  • 不适用