重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

下载和提取文本#

背景#

公开托管的文本数据集以各种位置和格式存储。下载海量的公共数据集通常是数据策展的第一步，由于数据集的庞大尺寸和托管方法，这可能会很麻烦。此外，海量的预训练文本数据集很少采用可以直接操作以进行进一步策展和训练的格式。例如，Common Crawl 以压缩 Web 存档格式 (.warc.gz) 存储其原始抓取数据，但 .jsonl 等格式由于易于使用，因此在数据策展中更为常见。但是，提取可能是数据策展管道中计算量最大的步骤，因此在提取步骤之前进行一些过滤以限制接受这种繁重计算的文档数量可能是有益的。

NeMo Curator 提供了用于下载和提取 Common Crawl、ArXiv 和 Wikipedia 数据的示例实用程序。此外，它还提供了一个灵活的接口，可以将该实用程序扩展到其他数据集。我们的 Common Crawl 示例演示了如何通过从 S3 下载数据、使用 pyCLD2 进行初步语言过滤以及使用 jusText 或 Resiliparse 提取相关文本以输出 .jsonl 文件来处理抓取。

NeMo Curator 目前不提供开箱即用的 Web 爬取或 Web 抓取支持。它提供了用于从上面给出的现有在线来源下载和提取数据的实用程序。用户可以轻松地自行实现这些功能，并根据需要使用下面描述的框架自动扩展它们。

用法#

nemo_curator.download 包含一组用于处理在线数据集的下载和提取的函数。 “下载”通常是指将数据从 Web 托管数据源传输到本地文件存储。 “提取”通常是指将数据格式从其原始形式（例如，.warc.gz）转换为标准化格式（例如，.jsonl）并丢弃不相关数据的过程。

download_common_crawl 将下载和提取 Common Crawl 快照的压缩 Web 存档文件到目标目录。Common Crawl 具有 S3 存储桶和直接 HTTPS 端点。如果要使用 S3 存储桶，请确保已使用 s5cmd 正确设置凭据。否则，HTTPS 端点将与 wget 一起使用。以下是如何使用它的小示例
```
from nemo_curator.download import download_common_crawl

common_crawl = download_common_crawl("/extracted/output/folder", "2020-50", "2021-04", output_type="jsonl")
```
- "/extracted/output/folder" 是本地文件系统中最终提取文件的放置路径。
- "2020-50" 是将包含在下载中的第一个 Common Crawl 快照。注意：并非每一年和每一周都有快照。确保您的范围至少包含一个有效的 Common Crawl 快照。有效的 Common Crawl 快照列表可以在此处找到。
- "2021-04" 是将包含在下载中的最后一个 Common Crawl 快照。
- output_type="jsonl" 是将用于在磁盘上存储数据的文件格式。目前支持 "jsonl" 和 "parquet"。

您可以选择修改 download_common_crawl 中使用的 HTML 文本提取算法。请参见下面的示例。

from nemo_curator.download import (
  ResiliparseExtractor,
  download_common_crawl,
)

# Change the extraction algorithm
extraction_algorithm = ResiliparseExtractor()
common_crawl = download_common_crawl(
  "/extracted/output/folder",
  "2020-50",
  "2021-04",
  output_type="jsonl",
  algorithm=extraction_algorithm,
)
上面，我们将提取算法从默认的 JusTextExtractor 更改了。

返回值 common_crawl 将采用 NeMo Curator 的标准 DocumentDataset 格式。查看该函数的文档字符串以获取更多可以使用的参数。

NeMo Curator 的 Common Crawl 提取过程在幕后如下所示
将记录中的 HTML 从二进制解码为文本。

如果可以正确解码 HTML，则使用 pyCLD2 对输入 HTML 执行语言检测。

最后，使用 jusText 或 Resiliparse 从 HTML 中提取相关文本，并将其作为 .jsonl 文件中 json 条目的“text”字段中的单个字符串写入。

download_wikipedia 将下载和提取最新的 Wikipedia 转储。文件使用 wget 下载。Wikipedia 的下载速度可能比其他数据集慢。这是因为它们限制了每个 IP 地址可以发生的下载次数。
```
from nemo_curator.download import download_wikipedia

wikipedia = download_wikipedia("/extracted/output/folder", dump_date="20240201")
```
- "/extracted/output/folder" 是本地文件系统中最终提取文件的放置路径。
- dump_date="20240201" 将 Wikipedia 转储固定到特定日期。如果未指定日期，则使用最新的转储。
download_arxiv 将下载和提取 ArXiv 论文的 Latex 版本。它们托管在 S3 上，因此请确保已使用 s5cmd 正确设置凭据。
```
from nemo_curator.download import download_arxiv

arxiv = download_arxiv("/extracted/output/folder")
```
- "/extracted/output/folder" 是本地文件系统中最终提取文件的放置路径。

所有这些函数都返回底层数据集的 DocumentDataset 以及在提取期间获得的元数据。如果数据集已在传递给它的路径中下载和提取，它将从那里的文件读取，而不是再次下载和提取它们。由于这些数据集中的每一个都非常庞大（Common Crawl 快照的大小约为数百 TB），因此所有这些数据集都跨不同的文件进行分片。它们都具有 url_limit 参数，允许您仅下载少量分片。

相关脚本#

除了上面描述的 Python 模块外，NeMo Curator 还提供了几个 CLI 脚本，您可能会发现它们对于执行相同的功能很有用。

NeMo Curator 中的 download_and_extract 脚本是一个通用工具，可用于从许多不同的数据集下载和提取数据。通常，可以按如下方式调用它，以便从 Web 下载和提取文本

download_and_extract \
  --input-url-file=<Path to .txt file containing list of URLs> \
  --builder-config-file=<Path to .yaml file that describes how the data should be downloaded and extracted> \
  --output-json-dir=<Path to output directory to which data will be written in .jsonl format>

此实用程序将 URL 列表作为输入，这些 URL 指向包含已准备好的、未提取的数据的文件（例如，来自 Common Crawl 的预抓取的网页）、一个配置文件（描述如何下载和提取数据）以及输出目录（提取的文本将以 jsonl 格式写入该目录）（每个文档每行写入一个 json）。对于 URL 列表中提供的每个 URL，都会在输出目录中写入相应的 jsonl 文件。

必须在运行时提供的配置文件应采用以下形式

download_module: nemo_curator.download.mydataset.DatasetDownloader
download_params: {}
iterator_module: nemo_curator.download.mydataset.DatasetIterator
iterator_params: {}
extract_module: nemo_curator.download.mydataset.DatasetExtractor
extract_params: {}

每对行对应于抽象 DocumentDownloader、DocumentIterator 和 DocumentExtractor 类的实现。在这种情况下，提供了 DatasetDownloader、DatasetIterator 和 DatasetExtractor 的虚拟名称。在此示例中，这些名称都已在虚构文件 nemo_curator/download/mydataset.py 中定义。在 NeMo Curator 中，我们已经为 Common Crawl、Wikipedia 和 ArXiv 数据集提供了每个这些类的实现。

Common Crawl 示例#

设置 Common Crawl#

如果您愿意，下载过程可以使用 s5cmd 从 S3 中拉取 WARC 文件。此实用程序已预装在 NeMo Framework Container 中，但您必须在 ~/.aws/config 中拥有必要的凭据才能使用它。如果您更喜欢使用此方法而不是 wget，请按如下方式在 download_params 中设置 aws=True

download_module: nemo_curator.download.commoncrawl.CommonCrawlWARCDownloader
download_params:
  aws: True
iterator_module: nemo_curator.download.commoncrawl.CommonCrawlWARCIterator
iterator_params: {}
extract_module: nemo_curator.download.commoncrawl.CommonCrawlWARCExtractor
extract_params: {}

下载和提取 Common Crawl#

如本文档的第一节所述，使用 download_and_extract 进行 Common Crawl 的第一步是创建 URL 列表，这些 URL 指向 Common Crawl 托管的 WARC 文件的位置。在 NeMo Curator 中，我们提供了 get_common_crawl_urls 实用程序来获取这些 URL。可以按如下方式运行此实用程序

get_common_crawl_urls \
  --cc-snapshot-index-file=./url_data/collinfo.json \
  --starting-snapshot="2020-50" \
  --ending-snapshot="2020-50" \
  --output-warc-url-file=./url_data/warc_urls_cc_2020_50.txt

此脚本从 https://index.commoncrawl.org 中拉取 Common Crawl 索引，并将索引存储到参数 --cc-snapshot-index-file 指定的文件中。然后，它检索参数 --starting-snapshot 和 --ending-snapshot 指定的日期之间的所有 WARC URL。最后，它将所有 WARC URL 写入文本文件 --output-warc-urls。此文件是一个简单的文本文件，格式如下

https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00000.warc.gz
https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00001.warc.gz
https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00002.warc.gz
https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00003.warc.gz
https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00004.warc.gz
...

对于 CC-MAIN-2020-50 快照，总共有 72,000 个压缩 WARC 文件，每个文件的大小在 800 - 900 MB 之间。

现在有了准备好的 URL 列表，我们可以使用存储库根目录下的 config 目录中包含的 Common Crawl 配置。此配置使用文件 nemo_curator/download/commoncrawl.py 中定义的下载、数据加载器和提取类。使用此配置和输入的 URL 列表，download_and_extract 实用程序可以按如下方式用于从 Common Crawl 下载和提取文本

download_and_extract \
  --input-url-file=./url_data/warc_urls_cc_2020_50.txt \
  --builder-config-file=./config/cc_warc_builder.yaml \
  --output-json-dir=/datasets/CC-MAIN-2020-50/json

当从 WARC 记录中提取文本时，准备好的文档将写入 --output-json-dir 指定的目录。以下是从 WARC 记录中提取的输出 .jsonl 文件的单行示例

{"text": "커뮤니티\n\n어린이 요리 교실은 평소 조리와 제과 제빵에 관심이 있는 초등학생을 대상으로 나이프스킬, 한식, 중식, 양식, 제과, 제빵, 디저트,
 생활요리 등 요리 기초부터 시작해 다양한 요리에 대해 배우고, 경험할 수 있도록 구성되었다.\n\n요즘 부모들의 자녀 요리 교육에 대한 관심이 높아지고
 있는데, 어린이 요리교실은 자녀들이 어디서 어떻게 요리를 처음 시작할지 막막하고 어려워 고민하는 이들을 위해 만들어졌다.\n\n그 뿐만 아니라 학생들이
 식재료를 다루는 과정에서 손으로 만지고 느끼는 것이 감각을 자극하여 두뇌발달에 도움을 주며, 조리를 통해 자신의 감정을 자연스럽게 표현할 수
 있고 이를 통해 정서적 안정을 얻을 수 있다. 또한, 다양한 사물을 만져 보면서 차이점을 구별하고 사물의 특징에 대해 인지할 수 있으므로 인지 능력 향상에
 도움이 되며, 만지고 느끼고 비교하는 과정에서 감각 기능을 향상시킬 수 있다.\n\n방과 후 시간이 되지 않는 초등학생들을 위해 평일반 뿐만 아니라 주말반도
 운영하고 있으며 두 분의 선생님들의 안전적인 지도하에 수업이 진행된다. 한국조리예술학원은 젊은 감각과 학생들과의 소통을 통해 자발적인 교육을 가르친다.
 자세한 학원 문의는 한국조리예술학원 홈페이지나 대표 전화, 카카오톡 플러스친구를 통해 가능하다.", "id": "a515a7b6-b6ec-4bed-998b-8be2f86f8eac",
 "source_id": "https://data.commoncrawl.org/crawl-data/CC-MAIN-2020-50/segments/1606141163411.0/warc/CC-MAIN-20201123153826-20201123183826-00000.warc.gz",
 "url": "http://hanjowon.co.kr/web/home.php?mid=70&go=pds.list&pds_type=1&start=20&num=67&s_key1=&s_que=", "language": "KOREAN"}

一旦 WARC 文件中的所有记录都已处理完毕，默认情况下会从磁盘中删除该文件。