重要提示

您正在查看 NeMo 2.0 文档。此版本引入了对 API 的重大更改和一个新的库 NeMo Run。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档，请参阅 NeMo 24.07 文档。

语言识别和 Unicode 修复#

背景#

大型未标记文本语料库通常包含多种语言。但是，数据策展通常包括特定于语言的步骤（例如，使用针对语言调整的启发式方法进行质量过滤），并且许多策展人只对策展单语数据集感兴趣。

NeMo Curator 提供了使用 fastText 识别语言的实用程序。即使在未提取的文本上可能已经执行了初步的语言识别（就像我们在 Common Crawl 管道中使用 pyCLD2 的情况一样），fastText 也更准确，因此可以用于第二次通过。

用法#

我们提供了一个示例，说明如何在 examples/identify_languages.py 中使用语言识别和 unicode 重新格式化实用程序。在较高层面上，该模块首先识别文档的语言，并删除任何对其语言具有高度不确定性的文档。