重要提示

您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档

分词器#

NeMo 1.0(先前版本)#

在 NeMo 1.0 中,分词器在 YAML 配置文件的 tokenizer section 中配置。

NeMo 2.0(新版本)#

在 NeMo 2.0 中,分词器可以直接在 Python 中初始化。 get_nmt_tokenizer 是 NeMo 中使用的实用程序函数,用于实例化许多用于 llm 和多模态训练的常用分词器。例如,以下代码将构造一个 GPT2BPETokenizer

from nemo.collections.nlp.modules.common.tokenizer_utils import get_nmt_tokenizer

tokenizer = get_nmt_tokenizer(
    library="megatron",
    model_name="GPT2BPETokenizer",
    vocab_file="/path/to/vocab",
    merges_file="/path/to/merges",
 )

而以下代码将构造一个 SentencePiece 分词器。

from nemo.collections.nlp.modules.common.tokenizer_utils import get_nmt_tokenizer

tokenizer = get_nmt_tokenizer(
    library="sentencepiece",
    tokenizer_model='/path/to/sentencepiece/model'
 )

有关受支持参数的完整列表,请参阅 get_nmt_tokenizer 代码。