自然机器翻译(NMT)#

基于 Transformer 的 Seq2Seq#

Riva 中基于 Transformer 的编码器-解码器神经机器翻译模型基于原始 Transformer 论文。 主要修改是使用pre-layernorm transformer 变体。 有关更多信息,请参阅NeMo 机器翻译文档

Riva 提供的 24x6 模型具有 5 亿参数,包含 24 个编码器层和 6 个解码器层。