重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
基于 CTC 分割的数据集创建工具#
此工具提供将长音频文件与相应的文本记录对齐,并将它们拆分为更短片段的功能,这些片段适用于自动语音识别 (ASR) 模型训练。
更多详情请见 NeMo/tutorials/tools/CTC_Segmentation_Tutorial.ipynb(可以使用 Google Colab 执行)。
该工具基于 CTC-Segmentation 包和 用于德语端到端语音识别的大型语料库的 CTC 分割 [TOOLS1]
参考文献#
[TOOLS1]
Ludwig Kürzinger, Dominik Winkelbauer, Lujun Li, Tobias Watzel 和 Gerhard Rigoll。用于德语端到端语音识别的大型语料库的 CTC 分割。见 International Conference on Speech and Computer,267–278。Springer,2020。