重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

教程#

开始使用 NeMo 的最佳方式是从我们的教程之一开始。这些教程涵盖了各个领域,并提供入门和高级主题。它们旨在帮助您有效理解和使用 NeMo 工具包。

在 Colab 上运行教程#

大多数 NeMo 教程都可以在 Google Colab 上运行。

运行教程:

  1. 从下表中,点击您感兴趣的教程关联的 Colab 链接。

  2. 进入 Colab 后,通过点击 Runtime > Change runtime type 并选择 GPU 作为硬件加速器,连接到具有 GPU 的实例。

教程概述#

通用教程#

领域

标题

GitHub URL

通用

入门指南:NeMo 基础知识

NeMo 基础知识

通用

入门指南:音频翻译器示例

音频翻译器示例

通用

入门指南:声音交换示例

声音交换示例

通用

入门指南:NeMo 模型

NeMo 模型

通用

入门指南:NeMo 适配器

NeMo 适配器

通用

入门指南:Hugging Face Hub 上的 NeMo 模型

HF Hub 上的 NeMo 模型

多模态教程#

领域

标题

GitHub URL

多模态

准备和高级应用:多模态数据准备

多模态数据准备

多模态

准备和高级应用:NeVA (LLaVA) 教程

NeVA (LLaVA) 教程

多模态

准备和高级应用:Stable Diffusion 教程

Stable Diffusion 教程

多模态

准备和高级应用:DreamBooth 教程

DreamBooth 教程

多模态

准备和高级应用:Stable Diffusion XL 量化教程

SDXL 量化教程

自动语音识别 (ASR) 教程#

领域

标题

GitHub URL

ASR

使用 NeMo 的 ASR

使用 NeMo 的 ASR

ASR

使用子词分词的 ASR

使用子词分词的 ASR

ASR

离线 ASR

离线 ASR

ASR

在线 ASR 麦克风缓存感知流式传输

在线 ASR 麦克风缓存感知流式传输

ASR

在线 ASR 麦克风缓冲流式传输

在线 ASR 麦克风缓冲流式传输

ASR

ASR CTC 语言微调

ASR CTC 语言微调

ASR

Transducers 简介

Transducers 简介

ASR

使用 Transducers 的 ASR

使用 Transducers 的 ASR

ASR

使用适配器的 ASR

使用适配器的 ASR

ASR

语音命令

语音命令

ASR

在线离线麦克风语音命令

在线离线麦克风语音命令

ASR

语音活动检测

语音活动检测

ASR

在线离线麦克风 VAD

在线离线麦克风 VAD

ASR

说话人识别和验证

说话人识别和验证

ASR

说话人日志推理

说话人日志推理

ASR

带有说话人日志的 ASR

带有说话人日志的 ASR

ASR

在线噪声增强

在线噪声增强

ASR

用于电话语音的 ASR

用于电话语音的 ASR

ASR

流式推理

流式推理

ASR

缓冲 Transducer 推理

缓冲 Transducer 推理

ASR

带有 LCS 合并的缓冲 Transducer 推理

带有 LCS 合并的缓冲 Transducer 推理

ASR

带有 VAD 的离线 ASR 用于 CTC 模型

带有 VAD 的离线 ASR 用于 CTC 模型

ASR

用于 ASR 的自监督预训练

用于 ASR 的自监督预训练

ASR

多语言 ASR

多语言 ASR

ASR

混合 ASR-TTS 模型

混合 ASR-TTS 模型

ASR

ASR 置信度估计

ASR 置信度估计

ASR

基于置信度的集成

基于置信度的集成

文本到语音 (TTS) 教程#

领域

标题

GitHub URL

TTS

基础和高级:NeMo TTS 入门

NeMo TTS 入门

TTS

基础和高级:TTS 语音/文本对齐器推理

TTS 语音/文本对齐器推理

TTS

基础和高级:FastPitch 和 MixerTTS 模型训练

FastPitch 和 MixerTTS 模型训练

TTS

基础和高级:FastPitch 微调

FastPitch 微调

TTS

基础和高级:用于德语的 FastPitch 和 HiFiGAN 模型训练

用于德语的 FastPitch 和 HiFiGAN 模型训练

TTS

基础和高级:Tacotron2 模型训练

Tacotron2 模型训练

TTS

基础和高级:FastPitch 持续时间和音调控制

FastPitch 持续时间和音调控制

TTS

基础和高级:FastPitch 说话人插值

FastPitch 说话人插值

TTS

基础和高级:TTS 推理和模型选择

TTS 推理和模型选择

TTS

基础和高级:TTS 发音自定义

TTS 发音自定义

工具和实用程序#

领域

标题

GitHub URL

实用工具

用于语音和文本的实用工具:NeMo 强制对齐器

NeMo 强制对齐器

实用工具

用于语音和文本的实用工具:语音数据浏览器

语音数据浏览器

实用工具

用于语音和文本的实用工具:CTC 分割

CTC 分割

文本处理 (TN/ITN) 教程#

领域

标题

GitHub URL

文本处理

文本规范化技术:文本规范化

文本规范化

文本处理

文本规范化技术:使用 Thutmose Tagger 的逆文本规范化

使用 Thutmose Tagger 的逆文本规范化

文本处理

文本规范化技术:WFST 教程

WFST 教程