重要

您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

修饰器#

基类#

class nemo_curator.modifiers.DocumentModifier#
property backend: Literal['pandas', 'cudf', 'any']#

修饰器操作的数据帧后端。可以是 ‘pandas’、‘cudf’ 或 ‘any’。默认为 ‘pandas’。 :returns: 表示修饰器需要作为输入的数据帧后端的字符串 :rtype: str

模块#

class nemo_curator.Modify(
modifier: DocumentModifier,
text_field='text',
)#
call(
dataset: DocumentDataset,
) DocumentDataset#

对数据集执行任意操作

参数:

dataset (DocumentDataset) – 要操作的数据集

修饰器#

class nemo_curator.modifiers.BoilerPlateStringModifier(remove_if_at_top_or_bottom=True)#

如果句子包含任何样板字符串,则丢弃。这包括“使用条款”、“隐私政策”等。来源:从 Google C4 处理中进行了重大改编。

class nemo_curator.modifiers.FastTextLabelModifier(label)#
class nemo_curator.modifiers.UnicodeReformatter#
class nemo_curator.modifiers.PiiModifier(
language: str = 'en',
supported_entities: List[str] | None = None,
anonymize_action: str = 'redact',
batch_size: int = 2000,
device: str = 'gpu',
**kwargs,
)#

此类是使用 PII 去标识模块处理以 CSV、JSONL 或其他格式存储的文档的入口点。它与 Modify 功能一起使用,如下所示

dataframe = pd.DataFrame({‘text’: [‘Sarah and Ryan went out to play’, ‘Jensen is the CEO of NVIDIA’]}) dd = dask.dataframe.from_pandas(dataframe, npartitions=1) dataset = DocumentDataset(dd)

modifier = PiiModifier(

batch_size=2000, language=’en’, supported_entities=[‘PERSON’, “EMAIL_ADDRESS”], anonymize_action=’replace’)

modify = Modify(modifier) modified_dataset = modify(dataset) modified_dataset.df.to_json(‘output_files/*.jsonl’, lines=True, orient=’records’)

load_deidentifier()#

加载去标识符的辅助函数

class nemo_curator.modifiers.LineRemover(patterns: List[str])#

如果行的内容与给定的字符串匹配,则从文档中删除行。

class nemo_curator.modifiers.MarkdownRemover#

删除文档中的 Markdown 格式,包括粗体、斜体、下划线和 URL 文本。

class nemo_curator.modifiers.NewlineNormalizer#

将 3 个或更多连续的换行符替换为仅 2 个换行符。

class nemo_curator.modifiers.UrlRemover#

删除文档中的所有 URL。

class nemo_curator.modifiers.Slicer(
left: int | str | None = 0,
right: int | str | None = None,
include_left: bool = True,
include_right: bool = True,
strip: bool = True,
)#

根据索引或字符串切片文档。

class nemo_curator.modifiers.QuotationRemover#

从文档中删除引号,遵循以下几个规则: - 如果文档少于 2 个字符,则返回不变。 - 如果文档以引号开头和结尾,并且

文档中没有换行符,则删除引号。

  • 如果文档以引号开头和结尾,并且文档中有

    换行符,则仅当第一行不以引号结尾时才删除引号。