重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
教程#
开始使用 NeMo 的最佳方式是从我们的教程之一开始。它们涵盖了各个领域,并提供了入门和高级主题。
这些教程可以从 NeMo 框架 Docker 容器内部运行。
大型语言模型#
数据管理#
探索使用 NeMo Curator 的数据管理技术示例
带链接的标题 |
描述 |
---|---|
该笔记本展示了如何将 NeMo Curator 与两个不同的分类器一起使用:一个用于评估数据质量,另一个用于识别数据领域。集成这些分类器简化了注释过程,增强了多样化数据集的组合,这对于训练基础模型至关重要。 |
|
本教程演示了如何使用 NeMo Curator Python API 来管理用于参数高效微调 (PEFT) 的数据集。具体来说,它使用了 Enron 数据集,其中包含电子邮件以及分类标签。每个电子邮件条目都包括主题、正文和类别(类标签)。本教程展示了可以应用于每个记录的各种过滤和处理操作。 |
|
该笔记本提供了一个使用 NeMo Curator 的典型数据管理管道,以泰国维基百科数据集为例。它演示了如何使用 NeMo Curator 下载维基百科数据,使用 FastText 执行语言分离,应用基于 GPU 的精确和模糊去重,以及利用基于 CPU 的启发式过滤。 |
|
本教程展示了如何使用 NeMo Curator Python API 来管理 TinyStories 数据集。TinyStories 是一个由 GPT-3.5 和 GPT-4 生成的短篇故事数据集,其中包含 3 至 4 岁儿童理解的词汇。这个数据集的小尺寸使其成为创建和验证的理想选择。 |
|
本教程演示了如何使用 NeMo Curator Python API 进行数据管理,以及合成数据生成和定性评分分配,以准备用于 LLM 的 PEFT 的数据集。 |
|
本笔记本介绍了 DAPT 所需的自定义分词工作流程,包括训练自定义分词器、数据集预处理和检查点嵌入表更改。 |
训练和自定义#
带链接的标题 |
描述 |
---|---|
该示例展示了如何使用 NeMo 2.0 运行简单的训练循环。它使用了 NeMo 框架 LLM 集合中的 train API。 |
|
本教程介绍了如何使用 NeMo-Run 运行任何受支持的 NeMo 2.0 Recipes。它还采用了一个预训练和微调配方,并展示了如何在本地以及远程在基于 Slurm 的集群上运行它。 |
|
此示例演示了如何将 NeMo 2.0 Recipes 与 NeMo-Run 一起用于长上下文模型训练,以及扩展现有预训练模型的上下文长度。 |
|
此示例展示了如何使用 NeMo 2.0 和 NeMo-Run 通过 SFT 和 LoRA 笔记本执行 Llama 3 监督微调和参数高效微调。 |
|
本教程提供了使用 NeMo 2.0 库预处理 SlimPajama 数据集和预训练基于 Llama 的模型的逐步说明。 |
|
本教程演示了如何使用 NeMo-Run 通过 NeMo 2.0 Recipes 在 Llama2-7B 等预训练模型上执行 DAPT。 |
世界基础模型#
后训练#
探索使用世界基础模型的后训练技术示例
带链接的标题 |
描述 |
---|---|
此示例展示了如何使用 NeMo 框架为您的自定义物理 AI 任务后训练基于 Cosmos 扩散的世界基础模型。 |
|
此示例展示了如何使用 NeMo 框架为您的自定义物理 AI 任务后训练基于 Cosmos 自回归的世界基础模型。 |
语音 AI#
大多数 NeMo 语音 AI 教程都可以在 Google 的 Colab 上运行。
在 Colab 上运行教程#
要运行教程
从下表中点击与您感兴趣的教程关联的 Colab 链接。
进入 Colab 后,通过点击 Runtime > Change runtime type 并选择 GPU 作为硬件加速器,连接到具有 GPU 的实例。
语音 AI 基础知识#
自动语音识别 (ASR) 教程#
标题 |
GitHub / Colab URL |
---|---|
使用 NeMo 进行 ASR |
|
使用子词分词进行 ASR |
|
离线 ASR |
|
在线 ASR 麦克风缓存感知流式传输 |
|
在线 ASR 麦克风缓冲流式传输 |
|
ASR CTC 语言微调 |
|
Transducers 简介 |
|
使用 Transducers 进行 ASR |
|
使用适配器进行 ASR |
|
语音命令 |
|
在线离线麦克风语音命令 |
|
语音活动检测 |
|
在线离线麦克风 VAD |
|
说话人识别和验证 |
|
说话人分离推理 |
|
带有说话人分离的 ASR |
|
在线噪声增强 |
|
用于电话语音的 ASR |
|
流式推理 |
|
缓冲 Transducer 推理 |
|
带有 LCS 合并的缓冲 Transducer 推理 |
|
用于 CTC 模型的带有 VAD 的离线 ASR |
|
用于 ASR 的自监督预训练 |
|
多语言 ASR |
|
混合 ASR-TTS 模型 |
|
ASR 置信度估计 |
|
基于置信度的集成 |
文本到语音 (TTS) 教程#
标题 |
GitHub / Colab URL |
---|---|
基础和高级:NeMo TTS 入门 |
|
基础和高级:TTS 语音/文本对齐器推理 |
|
基础和高级:FastPitch 和 MixerTTS 模型训练 |
|
基础和高级:FastPitch 微调 |
|
基础和高级:用于德语的 FastPitch 和 HiFiGAN 模型训练 |
|
基础和高级:Tacotron2 模型训练 |
|
基础和高级:FastPitch 持续时间和音调控制 |
|
基础和高级:FastPitch 说话人插值 |
|
基础和高级:TTS 推理和模型选择 |
|
基础和高级:TTS 发音自定义 |
工具和实用程序#
标题 |
GitHub / Colab URL |
---|---|
用于语音和文本的实用工具:NeMo 强制对齐器 |
|
用于语音和文本的实用工具:语音数据浏览器 |
|
用于语音和文本的实用工具:CTC 分割 |
文本处理 (TN/ITN) 教程#
标题 |
GitHub / Colab URL |
---|---|
文本规范化技术:文本规范化 |
|
文本规范化技术:使用 Thutmose Tagger 的逆文本规范化 |
|
文本规范化技术:WFST 教程 |