重要
您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
语音自监督学习#
自监督学习 (SSL) 指的是在没有显式标签的情况下进行学习的问题。由于任何学习过程都需要反馈,在没有显式标签的情况下,SSL 从数据本身中提取监督信号。SSL 的一般理念是从输入的观察部分预测输入的任何隐藏部分(或属性)(例如,填写句子中的空白或预测图像是直立还是倒置)。
用于语音/音频理解的 SSL 广泛分为基于对比或基于重建的方法。在对比方法中,模型通过区分真 tokens 和干扰 tokens(或潜在变量)来学习。对比方法的示例包括对比预测编码 (CPC)、掩码语言建模 (MLM) 等。在重建方法中,模型通过直接估计输入中缺失(有意遗漏)的部分来学习。掩码重建、自回归预测编码 (APC) 是几个示例。
在最近的过去,SSL 已成为改进声学建模 (AM)(即神经 ASR 模型的编码器模块)的主要贡献者。在这里,SSL 的大部分努力也集中在改进 AM 上。虽然 AM 是 ASR 中 SSL 的重点是很常见的,但它也可以用于改进 ASR 模型的其他部分(例如,基于 transducer 的 ASR 模型中的预测器模块)。
在 NeMo 中,我们提供两种类型的 SSL 模型:Wav2Vec-BERT 和 NEST。它们的训练脚本可以在 https://github.com/NVIDIA/NeMo/tree/main/examples/asr/speech_pretraining 中找到。
完整的文档树如下:
资源和文档#
请参阅 SSL-for-ASR notebook 以获取实践教程。如果您是 NeMo 的初学者,请考虑尝试 ASR with NeMo 教程。此教程和大多数其他教程可以通过在 Colab 上指定笔记本 GitHub 页面的链接在 Google Colab 上运行。
如果您正在寻找有关特定 ASR 模型的信息,或者想了解有关 nemo_asr
集合中可用的模型架构的更多信息,请参阅 ASR 模型 页面。
NeMo 包括几个常见 ASR 数据集的预处理脚本。ASR 数据集 页面包含有关运行这些脚本的说明。如果您有自己的数据,它还包括创建您自己的 NeMo 兼容数据集的指南。
有关如何加载模型检查点(本地文件或来自 NGC 的预训练检查点)以及 NGC 上可用检查点列表的信息,请访问 检查点 页面。
有关特定于 SSL 的配置文件的文档,请参见 配置文件 页面。