重要提示
您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新库 NeMo Run。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅NeMo 24.07 文档。
模型#
此页面简要概述了 NeMo 的语音分类集合当前支持的模型。对于语音分类,我们支持语音命令(关键词)检测和语音活动检测 (VAD)。
这些模型中的每一个都可以与示例 ASR 脚本(在 <NeMo_git_root>/examples/asr
目录中)一起使用,方法是在使用的配置文件中指定模型架构。每个模型的配置文件示例可以在 <NeMo_git_root>/examples/asr/conf
目录中找到。
有关配置文件的更多信息以及应如何构建它们,请参阅 NeMo 语音分类配置文件 页面。
所有这些模型的预训练检查点以及有关如何加载它们的说明都可以在 检查点 页面上找到。您可以使用可用的检查点进行即时推理,或在您自己的数据集上对其进行微调。“检查点”页面还包含可用 ASR 模型的基准测试结果。
MatchboxNet(语音命令)#
MatchboxNet [SC-MODELS2] 是一个用于语音命令识别的端到端神经网络,基于 QuartzNet。
与 QuartzNet 类似,MatchboxNet 模型系列表示为 MatchBoxNet_[BxRxC],其中 B 是块的数量,R 是一个块内卷积子块的数量,C 是通道的数量。每个子块包含一个一维可分离卷积、批归一化、ReLU 和 dropout
它可以在 Google 语音命令数据集上达到最先进的准确率,同时参数明显少于类似模型。_v1 和 _v2 表示在 v1(30 路分类)和 v2(35 路分类)数据集上训练的模型;我们使用 _subset_task 来表示 (10+2) 路子集(10 个特定类别 + 其他剩余类别 + 静音)分类任务。
MatchboxNet 模型可以使用 EncDecClassificationModel
类实例化。
注意
有关模型详细信息以及对语音命令检测训练、推理、微调等的深入理解,请参阅 <NeMo_git_root>/tutorials/asr/Speech_Commands.ipynb
和 <NeMo_git_root>/tutorials/asr/Online_Offline_Speech_Commands_Demo.ipynb
。
MarbleNet (VAD)#
MarbleNet [SC-MODELS1] 是一个用于语音命令识别的端到端神经网络,基于 MatchboxNet(语音命令),
与 MatchboxNet 类似,MarbleNet 模型系列表示为 MarbleNet_[BxRxC],其中 B 是块的数量,R 是一个块内卷积子块的数量,C 是通道的数量。每个子块包含一个一维可分离卷积、批归一化、ReLU 和 dropout
即使在简单数据上训练,它也可以在困难的 AVA 语音数据集上达到最先进的性能,同时参数明显少于类似模型。MarbleNet 模型可以使用 EncDecClassificationModel
类实例化。
注意
有关模型详细信息以及对 VAD 训练、推理、后处理、阈值调整等的深入理解,请参阅 <NeMo_git_root>/tutorials/asr/06_Voice_Activiy_Detection.ipynb
和 <NeMo_git_root>/tutorials/asr/Online_Offline_Microphone_VAD_Demo.ipynb
。
AmberNet (Lang ID)#
AmberNet 是一个用于语言识别模型的端到端神经网络,基于 TitaNet。
它可以在 Voxlingua107 数据集上达到最先进的性能,同时参数明显少于类似模型。AmberNet 模型可以使用 EncDecSpeakerLabelModel
类实例化。
参考文献#
Fei Jia、Somshubra Majumdar 和 Boris Ginsburg。《Marblenet:用于语音活动检测的深度一维时域通道可分离卷积神经网络》。arXiv preprint arXiv:2010.13886,2020 年。
Somshubra Majumdar 和 Boris Ginsburg。《MatchboxNet:用于语音命令识别的一维时域通道可分离卷积神经网络架构》。Proc. Interspeech 2020,2020 年。