重要提示
您正在查看 NeMo 2.0 文档。此版本对 API 和一个新的库 NeMo Run 进行了重大更改。我们目前正在将 NeMo 1.0 的所有功能移植到 2.0。有关先前版本或 2.0 中尚不可用的功能的文档,请参阅 NeMo 24.07 文档。
分词器#
NeMo 1.0(先前版本)#
在 NeMo 1.0 中,分词器在 YAML 配置文件的 tokenizer section 中配置。
NeMo 2.0(新版本)#
在 NeMo 2.0 中,分词器可以直接在 Python 中初始化。 get_nmt_tokenizer 是 NeMo 中使用的实用程序函数,用于实例化许多用于 llm 和多模态训练的常用分词器。例如,以下代码将构造一个 GPT2BPETokenizer
。
from nemo.collections.nlp.modules.common.tokenizer_utils import get_nmt_tokenizer
tokenizer = get_nmt_tokenizer(
library="megatron",
model_name="GPT2BPETokenizer",
vocab_file="/path/to/vocab",
merges_file="/path/to/merges",
)
而以下代码将构造一个 SentencePiece
分词器。
from nemo.collections.nlp.modules.common.tokenizer_utils import get_nmt_tokenizer
tokenizer = get_nmt_tokenizer(
library="sentencepiece",
tokenizer_model='/path/to/sentencepiece/model'
)
有关受支持参数的完整列表,请参阅 get_nmt_tokenizer
代码。