重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

模型#

端到端 ASR 模型通常采用编码器-解码器风格,其中编码器进行声学建模,即将语音波形转换为特征,解码器将这些特征转换为文本。编码器包含大部分可训练参数,通常是 ASR 中 SSL 的重点。因此,任何可用作 ASR 模型中编码器的架构都可以使用 SSL 进行预训练。有关 NeMo 的 ASR 集合中当前支持的模型架构的概述,请参阅 ASR 模型。请注意,SSL 也使用编码器-解码器风格的模型。在下游微调期间,编码器被保留,而解码器(在 SSL 期间使用)被替换为下游任务特定的模块。请参阅 检查点,了解如何在 NeMo 中实现这一点。