重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

下载和提取#

基类#

class nemo_curator.download.DocumentDownloader#: 用于将远程数据下载到磁盘的抽象类

class nemo_curator.download.DocumentIterator#: 用于读取已下载到磁盘的原始记录的抽象迭代器类

class nemo_curator.download.DocumentExtractor#: 用于从磁盘读取的记录中提取文本的抽象类

class nemo_curator.download.batch_download( urls: List[str], downloader: DocumentDownloader, )#: 使用下载器并行下载所有网址

class nemo_curator.download.download_and_extract( urls: List[str], output_paths: List[str], downloader: DocumentDownloader, iterator: DocumentIterator, extractor: DocumentExtractor, output_format: dict, output_type: str = 'jsonl', keep_raw_download=False, force_download=False, input_meta: str | dict | None = None, filename_col: str = 'file_name', )#

下载数据集并将其提取为 NeMo Curator 接受的格式

参数:

urls – 从中下载数据集的网址列表
output_paths – 用于保存最终提取输出的路径列表。下载器的原始输出将使用 downloader.download(url) 给出的路径保存。
downloader – 一个 DocumentDownloader，用于处理从每个网址检索文件并将其保存到存储
iterator – 一个 DocumentIterator，用于处理迭代下载文件的格式
extractor – 一个 DocumentExtractor，用于处理从原始格式中提取数据到文本
output_format – 一个字典，将列映射到提取后每个数据点的字段的数据类型。
output_type – 保存数据集的文件类型。
keep_raw_download – 是否保留预提取的下载文件。
force_download – 如果为 False，将跳过处理 output_paths 中已存在的所有文件，并直接从中读取。
input_meta – 一个字典或格式化为字典的字符串，其中概述了 JSONL 输入文件中的字段名称及其各自的数据类型。
filename_col – 包含文件名的列的名称。默认为 “filename_col”

返回:

已下载数据的 DocumentDataset

class nemo_curator.download.import_downloader(downloader_path)#

class nemo_curator.download.import_extractor(extractor_path)#

class nemo_curator.download.import_iterator(iterator_path)#

Common Crawl#

class nemo_curator.download.download_common_crawl( output_path: str, start_snapshot: str, end_snapshot: str, output_type: str = 'jsonl', algorithm=<nemo_curator.download.commoncrawl.JusTextExtractor object>, news=False, aws=False, raw_download_dir=None, keep_raw_download=False, force_download=False, url_limit=None, )#

下载 Common Crawl WARC 快照并使用 jusText 或 Resiliparse 提取它们

参数:

output_path – 文件根目录的路径
start_snapshot – 要包含的第一个 Common Crawl 快照。快照必须按 YYYY-WeekNumber（例如，“2020-50”或“2021-04”）指定。对于 CC-NEWS 数据集（使用 news=True 标志指定），这会更改为 Year-Month (YYYY-MM)。
end_snapshot – 要包含的最后一个 Common Crawl 快照。必须在时间顺序上晚于起始快照。
output_type – 保存数据的文件类型。
algorithm – JusTextExtractor 或 ResiliparseExtractor 对象。
news – 如果为 True，则获取 CC-NEWS 数据集的 WARC URL，而不是 CC-MAIN 数据集。还假定开始和结束快照的格式为“YYYY-MM”（年-月）。
aws – 是否从 Common Crawl 的 S3 存储桶下载。如果为 True，则使用 s5cmd 下载。如果为 False，则使用 wget。
raw_download_dir – 用于存储原始下载文件以进行中间处理的路径。如果为 None，则它们存储在 output_path 下名为“downloads”的文件夹中。
keep_raw_download – 如果为 True，则保留未提取的压缩 WARC 文件。
force_download – 如果为 False，将跳过处理 output_paths 中已存在的所有文件，并直接从中读取。
url_limit – 从快照下载的原始文件的最大数量。如果为 None，则下载快照范围内的所有文件。

class nemo_curator.download.CommonCrawlWARCDownloader(download_dir, aws=False, verbose=False)#: 从 Common Crawl 下载 WARC 文件

class nemo_curator.download.CommonCrawlWARCExtractor( algorithm=<nemo_curator.download.commoncrawl.JusTextExtractor object>, )#

class nemo_curator.download.CommonCrawlWARCIterator(log_frequency=1000)#

class nemo_curator.download.CommonCrawlWARCDownloaderExtractOnly(aws=False, verbose=False)#: 一个“虚拟”下载器，仅将预下载的文件放入队列中

class nemo_curator.download.JusTextExtractor( length_low=70, length_high=200, stopwords_low=0.3, stopwords_high=0.32, max_link_density=0.2, max_heading_distance=200, no_headings=False, logger=None, )#

class nemo_curator.download.ResiliparseExtractor( required_stopword_density=0.32, main_content=True, alt_texts=False, )#

维基百科#

class nemo_curator.download.download_wikipedia( output_path: str, language: str = 'en', dump_date=None, output_type: str = 'jsonl', raw_download_dir=None, keep_raw_download=False, force_download=False, url_limit=None, )#

下载最新的维基百科转储并使用 mwparserfromhell 提取它们

参数:

output_path – 文件根目录的路径
language – 要下载的维基百科文章的语言
dump_date – 格式为 “YYYYMMDD” 的字符串，用于表示要使用的维基百科转储。如果为 None，则使用最新的转储。
output_type – 保存数据的文件类型。
raw_download_dir – 用于存储原始下载文件以进行中间处理的路径。如果为 None，则它们存储在 output_path 下名为“downloads”的文件夹中。
keep_raw_download – 如果为 True，则保留未提取的 bz2 文件。
force_download – 如果为 False，将跳过处理 output_paths 中已存在的所有文件，并直接从中读取。
url_limit – 从快照下载的原始文件的最大数量。如果为 None，则下载快照范围内的所有文件。

class nemo_curator.download.WikipediaDownloader(download_dir, verbose=False)#

class nemo_curator.download.WikipediaIterator(language='en', log_frequency=1000)#

class nemo_curator.download.WikipediaExtractor(language='en', parser=mwparserfromhell)#

Arxiv#

class nemo_curator.download.download_arxiv( output_path: str, output_type: str = 'jsonl', raw_download_dir=None, keep_raw_download=False, force_download=False, url_limit=None, )#

下载 Arxiv tar 文件并提取它们

参数:

output_path – 文件根目录的路径
output_type – 保存数据的文件类型。
raw_download_dir – 用于存储原始下载文件以进行中间处理的路径。如果为 None，则它们存储在 output_path 下名为“downloads”的文件夹中。
keep_raw_download – 如果为 True，则保留未提取的压缩 WARC 文件。
force_download – 如果为 False，将跳过处理 output_paths 中已存在的所有文件，并直接从中读取。
url_limit – 从快照下载的原始文件的最大数量。如果为 None，则下载快照范围内的所有文件。

class nemo_curator.download.ArxivDownloader(download_dir, verbose=False)#

class nemo_curator.download.ArxivIterator(log_frequency=1000)#

class nemo_curator.download.ArxivExtractor#