重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

语音 AI 模型#

NVIDIA NeMo 框架支持语音 AI 模型的训练和定制，这些模型专门设计用于为对话式 AI 应用启用基于语音的界面。支持一系列语音任务，包括自动语音识别 (ASR)、说话人日志和文本到语音 (TTS)，我们将在下面重点介绍。

自动语音识别 (ASR)#

自动语音识别的任务是生成音频文件中所说内容的转录。

NVIDIA NeMo 团队开发的最新 ASR 模型#
模型系列	解码器类型	有用链接
Canary	AED (基于注意力的编码器-解码器)	文档, 论文, HF 空间
Parakeet	CTC, RNN-T, TDT, TDT-CTC 混合	文档, HF 空间

NeMo ASR 的主要功能包括

预训练的 ASR 模型，许多模型在 HuggingFace Open ASR 排行榜上名列前茅

模型检查点，专门用于 实时语音识别

LM 解码

关键词检测

在开发者文档中查找更多详细信息。

说话人日志是将音频流根据每个说话人的身份划分为多个片段的过程。本质上，它回答了“谁在何时说话？”这个问题。

NVIDIA NeMo 团队开发的最新说话人日志模型#
模型名称	有用链接
MSDD (多尺度说话人日志解码器)	文档, 论文, HF 空间

在开发者文档中查找更多详细信息。

文本到语音是一种将文本输入转换为自然人类语音的技术。

NVIDIA NeMo 团队开发的最新 TTS 模型#
模型名称	有用链接
T5-TTS	论文, 博客文章

在开发者文档中查找更多详细信息。

NeMo 框架还包括大量语音 AI 工具，用于数据集准备、模型评估和文本规范化。