重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

模型#

语音意图分类和槽位填充主要有两种方法，我们可以使用直接从音频预测语义的端到端 (E2E) 模型，或者使用由 ASR 模型和 NLU 模型组成的级联模型。E2E 方法优于级联模型，因为它避免了从 ASR 到 NLU 的错误传播，因此具有更好的性能。

我们在 NeMo 中的 E2E 模型基于编码器-解码器框架，其中 Conformer-large 模块用作编码器来提取特征，Transformer 解码器应用于特征之上以预测语义。

输出是一个 Python 字典对象，扁平化为字符串表示形式，因此该问题可以表述为序列到序列（音频到文本）问题。

该模型通过负对数似然 (NLL) 损失和教师强制进行训练。