重要提示

您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

语言识别和 Unicode 修复#

背景#

大型未标记文本语料库通常包含多种语言。但是,数据策展通常包括特定于语言的步骤(例如,使用针对语言调整的启发式方法进行质量过滤),并且许多策展人只对策展单语数据集感兴趣。

NeMo Curator 提供了使用 fastText 识别语言的实用程序。即使在未提取的文本上可能已经执行了初步的语言识别(就像我们在 Common Crawl 管道中使用 pyCLD2 的情况一样),fastText 也更准确,因此可以用于第二次通过。

用法#

我们提供了一个示例,说明如何在 examples/identify_languages.py 中使用语言识别和 unicode 重新格式化实用程序。在较高层面上,该模块首先识别文档的语言,并删除任何对其语言具有高度不确定性的文档。