nvidia.dali.fn.mfcc#

nvidia.dali.fn.mfcc(__input, /, *, axis=0, bytes_per_sample_hint=[0], dct_type=2, lifter=0.0, n_mfcc=20, normalize=False, preserve=False, device=None, name=None)#

从 mel 频谱图计算梅尔频率倒谱系数 (MFCC)。

支持的后端
  • ‘cpu’

  • ‘gpu’

参数:

__input (TensorList) – 操作符的输入。

关键字参数:
  • axis (int, optional, default = 0) –

    应用变换的轴。

    如果未提供值,将使用最外层维度。

  • bytes_per_sample_hint (int 或 list of int, optional, default = [0]) –

    输出大小提示,以字节/样本为单位。

    如果指定,则将预先分配驻留在 GPU 或页锁定主机内存中的操作符输出,以适应此大小的样本批次。

  • dct_type (int, optional, default = 2) –

    离散余弦变换类型。

    支持的类型为 1、2、3、4。用于计算 DCT 的公式等同于 https://en.wikipedia.org/wiki/Discrete_cosine_transform 中描述的公式(数字对应于 https://en.wikipedia.org/wiki/Discrete_cosine_transform#Formal_definition 中列出的类型)。

  • lifter (float, optional, default = 0.0) –

    倒谱滤波系数,也称为提升系数。

    如果提升系数大于 0,则 MFCC 将基于以下公式进行缩放

    MFFC[i] = MFCC[i] * (1 + sin(pi * (i + 1) / lifter)) * (lifter / 2)
    

  • n_mfcc (int, optional, default = 20) – MFCC 系数数量。

  • normalize (bool, optional, default = False) –

    如果设置为 True,则 DCT 使用正交归一化基。

    注意

    当 dct_type=1 时,不支持归一化。

  • preserve (bool, optional, default = False) – 即使操作符的输出未使用,也阻止将其从图中移除。

另请参阅