nvidia.dali.fn.decoders.audio#

nvidia.dali.fn.decoders.audio(__input, /, *, bytes_per_sample_hint=[0], downmix=False, dtype=DALIDataType.FLOAT, preserve=False, quality=50.0, sample_rate=0.0, device=None, name=None)#

从编码的音频数据中解码波形。

它支持以下音频格式：wav、flac 和 ogg。此操作符生成以下输出

output[0]：一批解码后的数据
output[1]：一批采样率 [Hz]。

支持的后端

‘cpu’

参数:

__input¶ (TensorList) – 操作符的输入。

关键字参数:

bytes_per_sample_hint¶ (int 或 list of int, optional, default = [0]) –
输出大小提示，以字节/样本为单位。

如果指定，则将预先分配驻留在 GPU 或页锁定主机内存中的操作符输出，以容纳此大小的样本批次。
downmix¶ (bool, optional, default = False) –
如果设置为 True，则将所有输入通道下混为单声道。

如果启用下混，则解码器输出为 1D。如果禁用下混，则生成具有交错通道的 2D 输出。
dtype¶ (nvidia.dali.types.DALIDataType, optional, default = DALIDataType.FLOAT) –
输出数据类型。

支持的类型：INT16、INT32、FLOAT。
preserve¶ (bool, optional, default = False) – 阻止操作符从图中移除，即使其输出未使用。
quality¶ (float, optional, default = 50.0) –
重采样质量，其中 0 为最低，100 为最高。

0 给出 sinc 滤波器的 3 个瓣，50 给出 16 个瓣，100 给出 64 个瓣。
sample_rate¶ (float 或 TensorList of float, optional, default = 0.0) – 如果指定，则为目标采样率（以 Hz 为单位），音频将重采样到该采样率。

另请参阅

音频解码器教程