语音识别#

Parakeet#

Recommended Streaming Offline

Parakeet 模型基于用于自动语音识别 (ASR) 的 Fast Conformer 架构,它是 Conformer 模型的优化版本,具有 8 倍深度可分离卷积下采样、修改后的卷积核大小和高效的子采样模块。有关更多信息,请参阅 Fast-Conformer 模型

Riva 提供的模型在大型专有数据集上进行训练,并提供三个版本

  • XL 尺寸(约 6 亿参数)

  • XXL 尺寸(约 11 亿参数):带有 Connectionist Temporal Classification (CTC) 解码器的 Fast-Conformer

  • XXL 尺寸(约 11 亿参数):带有 Recurrent Neural Network Transducer (RNN-T) 解码器的 Fast-Conformer

Conformer-CTC#

Recommended Streaming Offline

Conformer-CTC 模型是 Conformer 模型 的非自回归变体,用于自动语音识别 (ASR),它使用 CTC 损失/解码而不是 Transducer。有关更多信息,请参阅 Conformer-CTC 模型

Riva 提供的模型是大型(约 1.2 亿参数)和 XL 大型(约 6 亿参数)版本的 Conformer-CTC,它们在大型专有数据集上进行训练。

根据训练方案,Conformer-CTC 除了 Conformer-CTC 基础模型外,还有另外两种变体:Unified Conformer-CTC 和 Multilingual Code Switch Conformer-CTC。“Unified”变体可以转录带有标点符号的语音,而“Multilingual Code Switch”变体可以转录两种或多种语言。

Citrinet#

Recommended Streaming Offline

注意

不再建议将 Citrinet 用于新的部署。

Citrinet 是推荐的新型端到端卷积 Connectionist Temporal Classification (CTC) 基于 ASR 的模型。Citrinet 是一种深度残差神经模型,它使用一维时间通道可分离卷积,并结合了子词编码和挤压激励。由此产生的架构显着缩小了非自回归模型与序列到序列模型和 transducer 模型之间的差距。

有关模型架构的详细信息,请参阅 Citrinet:缩小非自回归和自回归端到端模型之间差距以实现自动语音识别 论文。

Riva 提供的模型是更大的变体 Citrinet-1024(约 1.42 亿参数)和更小的变体 Citrinet-256(约 980 万参数)。这两个变体都在大型专有数据集上进行了训练。

由于其较低的资源使用能力,Citrinet-256 是嵌入式平台上部署的首选模型。

Jasper#

Recommended Streaming Offline

注意

不再建议将 Jasper 用于新的部署。

Jasper(“Just Another SPEech Recognizer”)是一种用于 ASR 的端到端神经声学模型,可在 LibriSpeech 上提供接近最先进的结果,而无需任何外部数据。卷积层的 Jasper 架构旨在促进快速 GPU 推理,方法是允许将整个子块融合到单个 GPU 内核中。这对于满足部署中 ASR 系统的严格实时要求非常重要。

声学模型的结果与外部语言模型的结果相结合,以在称为解码的后处理步骤中获得与给定音频段对应的排名最高的词序列。

有关模型架构的详细信息,请参阅 Jasper:端到端卷积神经声学模型 论文。

QuartzNet#

Recommended Streaming Offline

注意

不再建议将 QuartzNet 用于新的部署。

QuartzNet 是 Jasper 模型架构的下一代产品,具有可分离卷积和更大的滤波器。它可以实现与 Jasper 相似的精度,但参数数量减少了一个数量级。与 Jasper 类似,QuartzNet 系列模型表示为 QuartzNet_[BxR],其中 B 是块的数量,R 是块内卷积子块的数量。每个子块包含一个一维可分离卷积、批量归一化、ReLU 和 dropout。

有关模型架构的详细信息,请参阅论文 QuartzNet:具有一维时间通道可分离卷积的深度自动语音识别

MarbleNet#

MarbleNet 是用于语音活动检测 (VAD) 的端到端神经网络。它是一个深度残差网络,由一维时间通道可分离卷积块、批量归一化、ReLU 和 dropout 层组成。与最先进的 VAD 模型相比,MarbleNet 能够以大约 1/10 的参数成本实现相似的性能。

有关模型架构的详细信息,请参阅 MarbleNet:用于语音活动检测的深度一维时间通道可分离卷积神经网络 论文。

TitaNet#

TitaNet 是一种用于提取说话人表示的新型神经网络架构。它采用一维深度可分离卷积,带有挤压激励 (SE) 层和全局上下文,然后是基于通道注意力的统计池化层,以将可变长度的语音映射到固定长度的嵌入 (t-vector)。TitaNet 是一种可扩展的架构,可在说话人验证任务中实现最先进的性能。此外,我们还提供各种尺寸的 TitaNet,包括轻量级 TitaNet-S 模型,该模型仅具有 600 万个参数,在说话人分离任务中实现了接近最先进的结果。

有关模型架构的详细信息,请参阅 TitaNet:具有一维深度可分离卷积和全局上下文的说话人表示神经模型 论文。