自然语言处理#

BERT#

通过以无监督方式预训练像 BERT 这样的模型,NLP 从业者能够通过简单地向模型添加不同的“头部”(或输出层)并使用领域内数据针对所需任务微调增强模型来创建特定于应用程序的模型。Riva NLP 支持以这种方式训练的模型的部署。

Riva NLP 支持基于 BERT 的模型。正如名称所示,谷歌的 BERT(Bidirectional Encoder Representations from Transformers,来自 Transformers 的双向编码器表示)是一个基于 Transformer 的语言模型。经过预训练后,根据下游任务的需要添加单层,模型即可进行微调,并在各种不同的 NLP 任务中实现(当时的)最先进的结果。虽然新的模型建立在 BERT 的成功之上,但其相对简单性、参数计数和良好的特定任务性能使其成为对延迟敏感的 NLP 部署的引人注目的选择。大多数微调任务可以在单个 GPU 上运行几个小时。有关 BERT 的更多信息,请参阅BERT:深度双向 Transformer 语言理解预训练论文。

DistilBERT#

DistilBERT 是 BERT 的精简版本,是一种 Transformer 模型架构,比 BERT 更小、更快、更便宜、更轻便。它的参数数量减少了 40%,速度提高了 60%,并保留了 BERT 97% 的语言理解能力。有关 DistilBERT 的更多详细信息,请参阅DistilBERT,BERT 的精简版本:更小、更快、更便宜、更轻便论文。

由于其较低的资源使用能力,DistilBERT 是嵌入式平台上部署的首选模型。

Megatron#

Megatron 是一种受 BERT 启发的 Transformer 模型架构,旨在扩展到数十亿个参数。在训练用于 Riva 部署的 NLP 模型时,您可以在标准 BERT 和 Megatron 之间进行选择。有关 Megatron 的更多详细信息,请参阅Megatron-LM:使用模型并行性训练数十亿参数语言模型论文。