nvidia.dali.fn.decoders.audio#

nvidia.dali.fn.decoders.audio(__input, /, *, bytes_per_sample_hint=[0], downmix=False, dtype=DALIDataType.FLOAT, preserve=False, quality=50.0, sample_rate=0.0, device=None, name=None)#

从编码的音频数据中解码波形。

它支持以下音频格式:wav、flac 和 ogg。此操作符生成以下输出

  • output[0]:一批解码后的数据

  • output[1]:一批采样率 [Hz]。

支持的后端
  • ‘cpu’

参数:

__input (TensorList) – 操作符的输入。

关键字参数:
  • bytes_per_sample_hint (int 或 list of int, optional, default = [0]) –

    输出大小提示,以字节/样本为单位。

    如果指定,则将预先分配驻留在 GPU 或页锁定主机内存中的操作符输出,以容纳此大小的样本批次。

  • downmix (bool, optional, default = False) –

    如果设置为 True,则将所有输入通道下混为单声道。

    如果启用下混,则解码器输出为 1D。如果禁用下混,则生成具有交错通道的 2D 输出。

  • dtype (nvidia.dali.types.DALIDataType, optional, default = DALIDataType.FLOAT) –

    输出数据类型。

    支持的类型:INT16INT32FLOAT

  • preserve (bool, optional, default = False) – 阻止操作符从图中移除,即使其输出未使用。

  • quality (float, optional, default = 50.0) –

    重采样质量,其中 0 为最低,100 为最高。

    0 给出 sinc 滤波器的 3 个瓣,50 给出 16 个瓣,100 给出 64 个瓣。

  • sample_rate (float 或 TensorList of float, optional, default = 0.0) – 如果指定,则为目标采样率(以 Hz 为单位),音频将重采样到该采样率。

另请参阅