Datamodule
ESM2FineTuneDataModule
基类:MegatronDataModule
用于微调 ESM2 模型的 PyTorch Lightning DataModule。
此 DataModule 旨在处理用于微调 ESM2 模型的数据准备和加载。它提供了一种灵活的方式来创建和管理数据集、数据加载器和采样策略。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 |
|
__init__(train_dataset=None, valid_dataset=None, predict_dataset=None, seed=42, min_seq_length=None, max_seq_length=1024, micro_batch_size=4, global_batch_size=8, num_workers=2, persistent_workers=True, pin_memory=True, rampup_batch_size=None, tokenizer=tokenizer.get_tokenizer())
初始化 ESM2FineTuneDataModule。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
train_dataset
|
DATASET_TYPES
|
训练数据集。 |
无
|
valid_dataset
|
DATASET_TYPES
|
验证数据集。 |
无
|
predict_dataset
|
DATASET_TYPES
|
预测数据集。不应与训练/验证数据集一起设置 |
无
|
seed
|
整数
|
用于数据集洗牌的随机种子。默认为 42。 |
42
|
min_seq_length
|
整数 | 无
|
数据集的最小序列长度。默认为无。 |
无
|
max_seq_length
|
整数
|
数据集的最大序列长度。默认为 1024。 |
1024
|
micro_batch_size
|
整数
|
数据加载器的微批次大小。默认为 4。 |
4
|
global_batch_size
|
整数
|
数据加载器的全局批次大小。默认为 8。 |
8
|
num_workers
|
整数
|
数据加载器的工作进程数。默认为 10。 |
2
|
persistent_workers
|
布尔值
|
是否持久化工作进程。默认为 True。 |
True
|
pin_memory
|
布尔值
|
是否将数据固定在内存中。默认为 True。 |
True
|
rampup_batch_size
|
列表[整数] | 无
|
批次大小 ramp-up 计划表。默认为无。 |
无
|
tokenizer
|
BioNeMoESMTokenizer
|
用于分词的分词器。默认为 BioNeMoESMTokenizer。 |
get_tokenizer()
|
返回
类型 | 描述 |
---|---|
无
|
无 |
源代码位于 bionemo/esm2/model/finetune/datamodule.py
140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 |
|
predict_dataloader()
返回预测数据的数据加载器。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
293 294 295 296 |
|
setup(stage)
设置 ESMDataModule。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
stage
|
字符串
|
未使用。 |
必需 |
引发
类型 | 描述 |
---|---|
RuntimeError
|
如果未附加训练器,或者如果未设置训练器的 max_steps。 |
源代码位于 bionemo/esm2/model/finetune/datamodule.py
201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 |
|
test_dataloader()
引发未实现错误。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
298 299 300 |
|
train_dataloader()
返回训练数据的数据加载器。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
283 284 285 286 |
|
val_dataloader()
返回验证数据的数据加载器。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
288 289 290 291 |
|
InMemoryCSVDataset
基类:Dataset
一个内存数据集,将字符串分词为 BertSample 实例。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 |
|
__getitem__(index)
获取给定索引处的 BertSample。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 |
|
__init__(data_path, tokenizer=tokenizer.get_tokenizer(), seed=np.random.SeedSequence().entropy)
初始化用于单值回归微调的数据集。
这是一个内存数据集,不对序列应用掩码。但会跟踪
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
data_path
|
字符串 | PathLike
|
包含序列的 CSV 文件的路径。 |
必需 |
labels
|
Optional[Sequence[float | str]]
|
一个可选的标签序列,与序列具有 1:1 映射。 |
必需 |
tokenizer
|
BioNeMoESMTokenizer
|
要使用的分词器。默认为 tokenizer.get_tokenizer()。 |
get_tokenizer()
|
seed
|
整数
|
用于可重现性的随机种子。此种子与要检索的样本的索引混合,以确保 getitem 是确定性的,但在不同运行中可能是随机的。如果为 None,则生成一个随机种子。 |
entropy
|
源代码位于 bionemo/esm2/model/finetune/datamodule.py
48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 |
|
__len__()
数据集的大小。
源代码位于 bionemo/esm2/model/finetune/datamodule.py
73 74 75 |
|
load_data(csv_path)
从 CSV 文件加载数据,返回序列和可选的标签。
子类应实现此方法,以处理其特定数据集的标签。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
csv_path
|
字符串 | PathLike
|
包含数据的 CSV 文件的路径。 |
必需 |
返回
类型 | 描述 |
---|---|
序列
|
Tuple[Sequence, Sequence]: 一个元组,其中第一个元素是序列列表,第二个元素是 |
序列
|
标签列表。如果 'label' 列不存在,则为标签返回一个空列表。 |
源代码位于 bionemo/esm2/model/finetune/datamodule.py
95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 |
|