重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

基于 CTC 分割的数据集创建工具#

此工具提供将长音频文件与相应的文本记录对齐，并将它们拆分为更短片段的功能，这些片段适用于自动语音识别 (ASR) 模型训练。

更多详情请见 NeMo/tutorials/tools/CTC_Segmentation_Tutorial.ipynb（可以使用 Google Colab 执行）。

该工具基于 CTC-Segmentation 包和用于德语端到端语音识别的大型语料库的 CTC 分割 [TOOLS1]

参考文献#

[TOOLS1]

Ludwig Kürzinger, Dominik Winkelbauer, Lujun Li, Tobias Watzel 和 Gerhard Rigoll。用于德语端到端语音识别的大型语料库的 CTC 分割。见 International Conference on Speech and Computer，267–278。Springer，2020。