重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
语音 AI 模型#
NVIDIA NeMo 框架支持语音 AI 模型的训练和定制,这些模型专门设计用于为对话式 AI 应用启用基于语音的界面。支持一系列语音任务,包括自动语音识别 (ASR)、说话人日志和文本到语音 (TTS),我们将在下面重点介绍。
自动语音识别 (ASR)#
自动语音识别的任务是生成音频文件中所说内容的转录。
模型系列 |
解码器类型 |
有用链接 |
---|---|---|
Canary |
AED (基于注意力的编码器-解码器) |
|
Parakeet |
CTC, RNN-T, TDT, TDT-CTC 混合 |
NeMo ASR 的主要功能包括
预训练的 ASR 模型,许多模型在 HuggingFace Open ASR 排行榜 上名列前茅
模型检查点,专门用于 实时语音识别
在 开发者文档 中查找更多详细信息。
说话人日志#
说话人日志是将音频流根据每个说话人的身份划分为多个片段的过程。本质上,它回答了“谁在何时说话?”这个问题。
在 开发者文档 中查找更多详细信息。
文本到语音 (TTS)#
文本到语音是一种将文本输入转换为自然人类语音的技术。
在 开发者文档 中查找更多详细信息。
语音 AI 工具#
NeMo 框架还包括大量 语音 AI 工具,用于数据集准备、模型评估和文本规范化。