重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

参考#

Kubernetes 上的 NeMo Curator

演示如何在 Kubernetes 之上部署的 Dask 集群上运行 NeMo Curator

NeMo Curator 和 Apache Spark

演示如何在使用 Apache Spark 和 NeMo Curator 时读取和写入数据集

最佳实践

关于如何最佳使用 NeMo Curator 来管理数据集的建议集合

下一步

既然您已经管理了您的数据,接下来让我们讨论在 NeMo 框架中下一步可以做什么来充分利用它。

教程

要开始使用,您可以浏览 NeMo Curator GitHub 存储库,并按照可用的教程和笔记本进行操作。这些资源涵盖了数据管理的各个方面,包括从头开始训练和参数高效微调 (PEFT)。

API 文档

NeMo Curator 中所有模块的 API 文档