重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和一个新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
模型#
本节简要概述了 NeMo 音频集合当前支持的模型。
模型配方可以通过 examples/audio 访问。
配置文件可以在 examples/audio/conf 目录下找到。有关配置文件的详细信息以及它们应如何构建,请参阅 NeMo 音频配置文件 部分。
预训练模型检查点可供任何用户立即合成语音或在您的自定义数据集上微调模型。请按照 检查点 部分中的说明了解如何使用这些预训练模型。
编码器-掩码-解码器模型#
编码器-掩码-解码器模型是一种通用模型,由编码器、掩码估计器、掩码处理器和解码器组成。编码器处理输入音频信号并产生潜在表示。掩码估计器从潜在表示中估计掩码。掩码处理器处理掩码和潜在表示,以产生处理后的潜在表示。解码器处理处理后的潜在表示以产生输出音频信号。该模型可用于各种任务,例如语音增强或语音分离。编码器和解码器可以是学习的或固定的,例如短时傅里叶变换 (STFT) 和 逆 STFT 模块。掩码估计器可以是神经模型,例如多通道掩码估计器 [],也可以是非神经模型,例如引导源分离 (GSS) []。掩码处理器可以是简单的掩码,也可以是参数化多通道维纳滤波器 []。
预测模型#
预测模型类似于编码器-掩码-解码器模型,但掩码估计器和掩码处理器被神经估计器取代。预测模型从输入音频信号 [] 估计目标输出信号的潜在表示。该模型可用于各种任务,例如语音增强或语音分离。
基于分数的生成模型#
基于分数的生成模型是一种基于扩散的生成模型,它估计数据分布的分数函数 []。该模型由编码器和解码器、神经分数估计器、随机微分方程 (SDE) 模型和采样器组成。
薛定谔桥模型#
薛定谔桥模型是一种生成模型,它使用数据到数据的过程将输入(退化)音频信号转换为目标(干净)音频信号 []。该模型由编码器和解码器、神经估计器、噪声计划和采样器组成。
流匹配模型#
流匹配模型是一种生成模型,它使用噪声到数据的过程将输入(退化)音频信号转换为目标(干净)音频信号 []。该模型由编码器和解码器、神经估计器、流模型和采样器组成。