Lr 调度器
SchedulerOutput
基类:TypedDict
调度器方法的输出。
源代码位于 bionemo/llm/model/lr_scheduler.py
33 34 35 36 37 38 |
|
WarmupAnnealDecayHold
基类:_LRScheduler
预热退火衰减保持学习率调度器。
源代码位于 bionemo/llm/model/lr_scheduler.py
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 |
|
__init__(optimizer, *, warmup_steps=None, max_steps=None, max_lr=None, min_lr=4e-05, anneal_percentage=0.1, last_epoch=-1)
初始化 WarmupAnnealDecayHold 学习率调度器。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
optimizer
|
MegatronOptimizerModule
|
应用学习率调度器的优化器。 |
必需 |
warmup_steps
|
int
|
线性预热的步数。 |
无
|
max_steps
|
int
|
训练步骤总数。 |
无
|
max_lr
|
float
|
预热后要达到的峰值学习率。 |
无
|
min_lr
|
float
|
最小学习率。 |
4e-05
|
anneal_percentage
|
float
|
衰减后保持的 max_lr 的百分比。 |
0.1
|
last_epoch
|
int
|
最后一个 epoch 的索引。 |
-1
|
源代码位于 bionemo/llm/model/lr_scheduler.py
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 |
|
get_lr()
获取当前步骤的学习率。
源代码位于 bionemo/llm/model/lr_scheduler.py
78 79 80 81 82 83 84 85 86 87 88 |
|
WarmupAnnealDecayHoldScheduler
基类:LRSchedulerModule
预热策略学习率调度器。
源代码位于 bionemo/llm/model/lr_scheduler.py
91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 |
|
__init__(warmup_steps=2000, max_steps=500000, max_lr=0.0004, min_lr=4e-05, anneal_percentage=0.1, interval='step', frequency=1, monitor='val_loss')
初始化 WarmupAnnealDecayHoldScheduler。
源代码位于 bionemo/llm/model/lr_scheduler.py
94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 |
|
scheduler(model, optimizer)
返回调度器输出。
源代码位于 bionemo/llm/model/lr_scheduler.py
116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 |
|