预处理
GeneformerPreprocess
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 |
|
__init__(download_directory, medians_file_path, tokenizer_vocab_path)
下载 HGNC 符号
preproc_dir (str): 用于存储参考预处理的目录 tokenizer_vocab_path (str): 用于存储分词器词汇表的文件路径 dataset_conf (OmegaConf): 具有 'train'、'val'、'test' 键,包含用于训练的预处理后的训练/验证/测试文件名。
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
75 76 77 78 79 80 81 82 83 84 85 86 87 88 |
|
build_and_save_tokenizer(median_dict, gene_to_ens, vocab_output_name)
使用中位数词典构建 GeneTokenizer,然后序列化并将词典保存到磁盘。
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
90 91 92 93 94 95 96 |
|
preprocess()
为 Geneformer 模型进行预处理
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 |
|
GeneformerResourcePreprocessor
dataclass
基类:ResourcePreprocessor
Geneformer 模型的 ResourcePreprocessor。下载 gene_name_id_dict.pkl 和 gene_median_dictionary.pkl 文件。
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 |
|
prepare_resource(resource)
记录并下载传递的资源。
resource: RemoteResource - 要准备的资源。
返回 - 下载资源的绝对目标路径
源代码位于 bionemo/geneformer/data/singlecell/preprocess.py
61 62 63 64 65 66 67 68 |
|