重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

模型#

端到端 ASR 模型通常采用编码器-解码器风格，其中编码器进行声学建模，即将语音波形转换为特征，解码器将这些特征转换为文本。编码器包含大部分可训练参数，通常是 ASR 中 SSL 的重点。因此，任何可用作 ASR 模型中编码器的架构都可以使用 SSL 进行预训练。有关 NeMo 的 ASR 集合中当前支持的模型架构的概述，请参阅 ASR 模型。请注意，SSL 也使用编码器-解码器风格的模型。在下游微调期间，编码器被保留，而解码器（在 SSL 期间使用）被替换为下游任务特定的模块。请参阅检查点，了解如何在 NeMo 中实现这一点。