nvidia.dali.fn.mfcc#

nvidia.dali.fn.mfcc(__input, /, *, axis=0, bytes_per_sample_hint=[0], dct_type=2, lifter=0.0, n_mfcc=20, normalize=False, preserve=False, device=None, name=None)#

从 mel 频谱图计算梅尔频率倒谱系数 (MFCC)。

支持的后端

‘cpu’
‘gpu’

参数:

__input¶ (TensorList) – 操作符的输入。

关键字参数:

axis¶ (int, optional, default = 0) –
应用变换的轴。

如果未提供值，将使用最外层维度。
bytes_per_sample_hint¶ (int 或 list of int, optional, default = [0]) –
输出大小提示，以字节/样本为单位。

如果指定，则将预先分配驻留在 GPU 或页锁定主机内存中的操作符输出，以适应此大小的样本批次。
dct_type¶ (int, optional, default = 2) –
离散余弦变换类型。

支持的类型为 1、2、3、4。用于计算 DCT 的公式等同于 https://en.wikipedia.org/wiki/Discrete_cosine_transform 中描述的公式（数字对应于 https://en.wikipedia.org/wiki/Discrete_cosine_transform#Formal_definition 中列出的类型）。
lifter¶ (float, optional, default = 0.0) –
倒谱滤波系数，也称为提升系数。

如果提升系数大于 0，则 MFCC 将基于以下公式进行缩放
```
MFFC[i] = MFCC[i] * (1 + sin(pi * (i + 1) / lifter)) * (lifter / 2)
```
n_mfcc¶ (int, optional, default = 20) – MFCC 系数数量。
normalize¶ (bool, optional, default = False) –
如果设置为 True，则 DCT 使用正交归一化基。

注意

当 dct_type=1 时，不支持归一化。
preserve¶ (bool, optional, default = False) – 即使操作符的输出未使用，也阻止将其从图中移除。

另请参阅

音频频谱图教程