ASR 高级详情#

置信度估计#

Riva 支持语句级别和词语级别的置信度估计。较高的置信度表示相关词语或语句正确的可能性较高。这是一项实验性功能。不应依赖这些置信度的准确性、格式和存在性。目前,语句和词语级别的置信度估计可以粗略地解释为估计的自然对数概率。置信度分数的估计因解码器而异。下表概述了 Riva ASR 支持的每种解码器的置信度估计方法。

解码器

词语置信度

语句置信度

贪婪

表示词语的声学帧跨度内的最小对数概率,不包括空白标记。

平均词语置信度

OpenSeq2Seq (os2s)

分数通过带有 LM 的 CTC 的前缀波束搜索累积。词语分数只是从与该词语关联的帧中累积。

语句的分数如上所述累积。

Flashlight

大致是词语帧的对数 AM 概率与 LM 分数的简单总和

大致是整个语句的对数 AM 概率与 LM 分数的简单总和

Kaldi

由格子中相关弧给出的词语的对数概率。

由通过格子的相关路径给出的语句的对数概率。