重要
您正在查看 NeMo 2.0 文档。此版本对 API 和新库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 中的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
修饰器#
基类#
模块#
- class nemo_curator.Modify(
- modifier: DocumentModifier,
- text_field='text',
- call(
- dataset: DocumentDataset,
对数据集执行任意操作
- 参数:
dataset (DocumentDataset) – 要操作的数据集
修饰器#
- class nemo_curator.modifiers.BoilerPlateStringModifier(remove_if_at_top_or_bottom=True)#
如果句子包含任何样板字符串,则丢弃。这包括“使用条款”、“隐私政策”等。来源:从 Google C4 处理中进行了重大改编。
- class nemo_curator.modifiers.FastTextLabelModifier(label)#
- class nemo_curator.modifiers.UnicodeReformatter#
- class nemo_curator.modifiers.PiiModifier(
- language: str = 'en',
- supported_entities: List[str] | None = None,
- anonymize_action: str = 'redact',
- batch_size: int = 2000,
- device: str = 'gpu',
- **kwargs,
此类是使用 PII 去标识模块处理以 CSV、JSONL 或其他格式存储的文档的入口点。它与 Modify 功能一起使用,如下所示
dataframe = pd.DataFrame({‘text’: [‘Sarah and Ryan went out to play’, ‘Jensen is the CEO of NVIDIA’]}) dd = dask.dataframe.from_pandas(dataframe, npartitions=1) dataset = DocumentDataset(dd)
- modifier = PiiModifier(
batch_size=2000, language=’en’, supported_entities=[‘PERSON’, “EMAIL_ADDRESS”], anonymize_action=’replace’)
modify = Modify(modifier) modified_dataset = modify(dataset) modified_dataset.df.to_json(‘output_files/*.jsonl’, lines=True, orient=’records’)
- load_deidentifier()#
加载去标识符的辅助函数
- class nemo_curator.modifiers.LineRemover(patterns: List[str])#
如果行的内容与给定的字符串匹配,则从文档中删除行。
- class nemo_curator.modifiers.MarkdownRemover#
删除文档中的 Markdown 格式,包括粗体、斜体、下划线和 URL 文本。
- class nemo_curator.modifiers.NewlineNormalizer#
将 3 个或更多连续的换行符替换为仅 2 个换行符。
- class nemo_curator.modifiers.UrlRemover#
删除文档中的所有 URL。
- class nemo_curator.modifiers.Slicer(
- left: int | str | None = 0,
- right: int | str | None = None,
- include_left: bool = True,
- include_right: bool = True,
- strip: bool = True,
根据索引或字符串切片文档。
- class nemo_curator.modifiers.QuotationRemover#
从文档中删除引号,遵循以下几个规则: - 如果文档少于 2 个字符,则返回不变。 - 如果文档以引号开头和结尾,并且
文档中没有换行符,则删除引号。
- 如果文档以引号开头和结尾,并且文档中有
换行符,则仅当第一行不以引号结尾时才删除引号。