重要提示
您正在查看 NeMo 2.0 文档。此版本引入了 API 的重大更改和一个新的库,NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
语音分类#
语音分类指的是一组任务或问题,旨在让程序自动将输入的语音或音频片段分类到不同的类别中,例如语音命令识别(多类)、语音活动检测(二元或多类)和音频情感分类(通常是多类)等等。
语音命令识别是用于将输入音频模式分类到离散类别集合的任务。它是自动语音识别 (ASR) 的一个子集,有时称为关键词检测,其中模型不断分析语音模式以检测某些“命令”类别。一旦检测到这些命令,系统就可以采取特定操作。命令识别模型的目标通常是小而高效,以便可以将它们部署到低功耗传感器上并保持长时间活动。
语音活动检测 (VAD) 也称为语音活动检测或语音检测,是预测输入音频的哪些部分包含语音而不是背景噪声的任务。它是各种基于语音的应用(包括自动语音识别)必不可少的第一步。它用于确定将哪些样本发送到模型以及何时关闭麦克风。
口语语言识别 (Lang ID) 也称为口语语言识别,是自动识别口语话语语言的任务。它通常用作 ASR 的预处理,确定将激活哪个 ASR 模型,具体取决于语言。
完整的文档树如下
资源和文档指南#
实践语音分类教程笔记本可以在 <NeMo_git_repo>/tutorials/asr/
下找到。有用于语音命令检测和语音活动检测任务的训练以及离线和在线麦克风推理教程。此教程和大多数其他教程可以通过在 Colab 上指定笔记本 GitHub 页面的链接在 Google Colab 上运行。
如果您正在查找有关特定语音分类模型的信息,或者想了解有关 nemo_asr 集合中可用的模型架构的更多信息,请查看模型页面。
有关数据集预处理的文档可以在 数据集 页面上找到。NeMo 包括几个常见 ASR 数据集的预处理脚本,此页面包含有关运行这些脚本的说明。如果您有自己的数据,它还包括创建您自己的 NeMo 兼容数据集的指南。
有关如何加载模型检查点(本地文件或来自 NGC 的预训练检查点)、执行推理以及 NGC 上可用的检查点列表的信息,请访问 检查点 页面。
有关特定于 nemo_asr
模型的配置文件的文档,可以在 配置文件 页面上找到。