重要提示
您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
语言识别和 Unicode 修复#
背景#
大型未标记文本语料库通常包含多种语言。但是,数据策展通常包括特定于语言的步骤(例如,使用针对语言调整的启发式方法进行质量过滤),并且许多策展人只对策展单语数据集感兴趣。
NeMo Curator 提供了使用 fastText 识别语言的实用程序。即使在未提取的文本上可能已经执行了初步的语言识别(就像我们在 Common Crawl 管道中使用 pyCLD2 的情况一样),fastText 也更准确,因此可以用于第二次通过。
用法#
我们提供了一个示例,说明如何在 examples/identify_languages.py
中使用语言识别和 unicode 重新格式化实用程序。在较高层面上,该模块首先识别文档的语言,并删除任何对其语言具有高度不确定性的文档。