训练
NsysConfig
基类:BaseModel
nsys 性能分析的配置。
源代码位于 bionemo/llm/train.py
51 52 53 54 55 56 |
|
nemo_logger_factory(experiment_config, wandb_config)
基于提供的实验和 wandb 配置创建并返回 NeMoLogger 实例。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
experiment_config
|
ExperimentConfig
|
包含实验设置(如结果目录、实验名称、检查点设置和记录器首选项)的配置对象。 |
必需 |
wandb_config
|
Optional[WandbConfig]
|
Weights and Biases 日志记录的可选配置对象。 |
必需 |
返回
类型 | 描述 |
---|---|
NeMoLogger
|
nl.NeMoLogger:使用指定设置配置的 NeMoLogger 实例。 |
源代码位于 bionemo/llm/train.py
59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 |
|
setup_trainer(parallel_config, training_config, callbacks=None, nsys_config=None)
使用指定的并行和训练配置来设置模型训练的训练器。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
parallel_config
|
ParallelConfig
|
并行性配置,包括张量和流水线模型并行大小、设备数量和节点数量。 |
必需 |
training_config
|
TrainingConfig
|
训练配置,包括最大步数、加速器类型、验证批次限制、验证检查间隔和精度。 |
必需 |
callbacks
|
list
|
训练期间要使用的回调函数列表。默认为 None,在这种情况下,将使用默认回调(RichModelSummary 和 LearningRateMonitor)。 |
None
|
nsys_config
|
NsysConfig
|
nsys 性能分析的配置。如果为 None,则禁用。 |
None
|
返回
类型 | 描述 |
---|---|
Trainer
|
nl.Trainer:配置好的训练器对象,可用于模型训练。 |
源代码位于 bionemo/llm/train.py
92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 |
|
train(bionemo_exposed_model_config, data_config, parallel_config, training_config, optim_config, experiment_config, wandb_config, nsys_config=None, resume_if_exists=True)
使用提供的配置训练 BioNemo 模型。使用 ExposedModelConfig 和 DataConfig 作为此方法的主要变体。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
bionemo_exposed_model_config
|
ExposedModelConfig
|
公开的 BioNemo 模型的配置。 |
必需 |
data_config
|
DataConfig[DataModuleT]
|
数据模块的配置。 |
必需 |
parallel_config
|
ParallelConfig
|
并行训练的配置。 |
必需 |
training_config
|
TrainingConfig
|
训练参数的配置。 |
必需 |
optim_config
|
OptimizerSchedulerConfig
|
优化器和调度器的配置。 |
必需 |
experiment_config
|
ExperimentConfig
|
实验的配置。 |
必需 |
wandb_config
|
Optional[WandbConfig]
|
Weights and Biases 日志记录的配置。n |
必需 |
nsys_config
|
Optional[NsysConfig]
|
nsys 性能分析的配置。如果为 None,则禁用。 |
None
|
resume_if_exists
|
bool
|
如果检查点存在,则恢复训练的标志。默认为 True。 |
True
|
源代码位于 bionemo/llm/train.py
178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 |
|