重要提示

您正在查看 NeMo 2.0 文档。此版本为 API 和新库 NeMo Run 引入了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚未提供的功能的文档,请参阅 NeMo 24.07 文档

图像数据整理#

开始使用

安装 NeMo Curator 的图像数据整理模块。

图像-文本对数据集

图像-文本对数据集通常用作训练多模态生成模型的基础。NeMo Curator 与标准化的 WebDataset 格式接口,用于整理此类数据集。

图像嵌入创建

图像嵌入是 NeMo Curator 中许多数据整理操作的骨干。本节介绍如何为海量数据集高效创建嵌入。

分类器

NeMo Curator 提供了几种使用常见分类器的方法,例如美学评分和不适宜工作场所 (NSFW) 评分。

语义去重

图像数据集的语义去重已被证明可以显着提高模型性能。NeMo Curator 具有语义去重模块,可以与任何模态一起使用。