重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
模型#
语音意图分类和槽位填充主要有两种方法,我们可以使用直接从音频预测语义的端到端 (E2E) 模型,或者使用由 ASR 模型和 NLU 模型组成的级联模型。E2E 方法优于级联模型,因为它避免了从 ASR 到 NLU 的错误传播,因此具有更好的性能。
我们在 NeMo 中的 E2E 模型基于编码器-解码器框架,其中 Conformer-large 模块用作编码器来提取特征,Transformer 解码器应用于特征之上以预测语义。

输出是一个 Python 字典对象,扁平化为字符串表示形式,因此该问题可以表述为序列到序列(音频到文本)问题。
该模型通过负对数似然 (NLL) 损失和教师强制进行训练。