基因分词器
GeneTokenizer
基类:Label2IDTokenizer
、IOMixin
初始化 GeneTokenizer 对象。
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 |
|
ens_tok_to_gene(ens)
将 Ensembl 令牌转换为基因名称。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
ens
|
str
|
要转换的 Ensembl 令牌。 |
必需 |
返回
名称 | 类型 | 描述 |
---|---|---|
str |
str
|
相应的基因名称。 |
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
140 141 142 143 144 145 146 147 148 149 |
|
enss_to_genes(ensemble_ids)
将 Ensembl ID 列表转换为基因名称。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
ensemble_ids
|
List[str]
|
Ensembl ID 的列表。 |
必需 |
返回
类型 | 描述 |
---|---|
List[str]
|
List[str]:与 Ensembl ID 对应的基因名称列表。 |
引发
类型 | 描述 |
---|---|
ValueError
|
如果在映射中找不到 Ensembl ID。 |
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 |
|
from_medians_and_genes_dicts(median_dict, gene_to_ens)
classmethod
从中间值字典创建分词器。
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
53 54 55 56 57 58 |
|
from_vocab_file(vocab_file)
classmethod
如果我们从文件名而不是字典工作,此方法会在构造函数上添加一个层。
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
115 116 117 118 119 120 121 122 123 124 125 126 127 |
|
gene_tok_to_ens(gene)
将基因令牌转换为其对应的 Ensembl ID。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
gene
|
str
|
要转换的基因令牌。 |
必需 |
返回
名称 | 类型 | 描述 |
---|---|---|
str |
str
|
与基因令牌对应的 Ensembl ID。 |
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
129 130 131 132 133 134 135 136 137 138 |
|
genes_to_enss(genes)
将基因名称列表转换为 Ensembl ID。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
genes
|
List[str]
|
基因名称列表。 |
必需 |
返回
类型 | 描述 |
---|---|
List[str]
|
List[str]:对应的 Ensembl ID 列表。 |
引发
类型 | 描述 |
---|---|
ValueError
|
如果在 gene_to_ens 字典中找不到基因名称。 |
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 |
|
save_vocab(vocab_file)
将词汇表另存为换行符分隔的词汇表文件,每行代表一个 int -> 令牌映射。行号被假定为整数。
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
102 103 104 105 106 107 108 109 110 111 112 113 |
|
token_to_id(token)
将令牌转换为其对应的 ID。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
token
|
str
|
要转换的令牌。 |
必需 |
返回
类型 | 描述 |
---|---|
int
|
与令牌对应的 ID。 |
源代码在 bionemo/geneformer/tokenizer/gene_tokenizer.py
中
72 73 74 75 76 77 78 79 80 81 |
|