重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

数据整理#

文本整理#

下载和提取文本: 下载海量的公共数据集通常是数据整理的第一步，但由于数据集的庞大规模和托管方法，它可能很麻烦。本节介绍如何高效地下载和提取大型语料库。
使用 DocumentDataset: DocumentDataset 是 NeMo Curator 中数据集的标准格式。本节介绍如何将数据集导入和导出此格式，以及 DocumentDataset 如何与模块交互。
带有 Dask 的 CPU 和 GPU 模块: NeMo Curator 提供基于 CPU 的模块和基于 GPU 的模块，并支持创建兼容 Dask 集群以及管理 CPU 和 GPU 之间数据集传输的方法。
文档过滤: 本节介绍如何使用 NeMo Curator 中提供的 30 多个启发式和分类器过滤器，并实现自定义过滤器以应用于语料库中的文档。
语言识别: 大型未标记的文本语料库通常包含多种语言。NeMo Curator 提供了识别语言的实用程序。
文本清理: 互联网的许多部分包含格式错误或格式不佳的文本。NeMo Curator 可以修复许多此类文本问题。
GPU 加速的精确和模糊去重: NeMo Curator 支持精确和模糊去重功能，并使用 RAPIDS cuDF 加速。
GPU 加速的语义去重: NeMo Curator 使用 RAPIDS cuML、cuDF、crossfit 和 PyTorch 提供可扩展且 GPU 加速的语义去重功能。
分布式数据分类: NeMo-Curator 提供了一个可扩展且 GPU 加速的模块，以帮助用户在大量文本文档上使用预训练模型运行推理。
合成数据生成: NeMo Curator 中提供了合成数据生成工具和示例管道。
下游任务去污染: 训练后，大型语言模型通常通过其在由未见测试数据组成的下游任务中的性能进行评估。在处理大型数据集时，存在此测试数据泄漏到模型的训练数据集中的可能性。NeMo Curator 允许您删除数据集中存在于下游任务中的文档部分。
个人身份信息识别和移除: 个人身份信息 (PII) 编辑工具的目的是帮助从训练数据集中清除敏感数据

图像整理#

开始使用: 安装 NeMo Curator 的图像整理模块。
图像-文本对数据集: 图像-文本对数据集通常用作训练多模态生成模型的基础。NeMo Curator 与标准化的 WebDataset 格式接口，用于整理此类数据集。
图像嵌入创建: 图像嵌入是 NeMo Curator 中许多数据整理操作的支柱。本节介绍如何有效地为海量数据集创建嵌入。
分类器: NeMo Curator 提供了几种使用常见分类器的方法，如美学评分和不适合工作场所（NSFW）评分。
语义去重: 图像数据集的语义去重已显示可显着提高模型性能。NeMo Curator 具有可用于任何模态的语义去重模块。

参考#

Kubernetes 上的 NeMo Curator: 演示如何在部署在 Kubernetes 之上的 Dask 集群上运行 NeMo Curator
NeMo Curator 和 Apache Spark: 演示在使用 Apache Spark 和 NeMo Curator 时如何读取和写入数据集
最佳实践: 关于如何最好地使用 NeMo Curator 来整理数据集的建议集合
下一步: 既然您已经整理了数据，让我们讨论一下 NeMo 框架中下一步该如何使用它。
教程: 要开始使用，您可以浏览 NeMo Curator GitHub 存储库，并按照可用的教程和笔记本进行操作。这些资源涵盖了数据整理的各个方面，包括从头开始训练和参数高效微调 (PEFT)。
API 文档: NeMo Curator 中所有模块的 API 文档