层
ESM2QueryScaling
基类:Module
源代码位于 bionemo/llm/model/layers.py
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 |
|
__init__(config, *args, **kwargs)
一个自定义层,用于缩放查询值。
此层应替换 ESM2 ModuleSpec 中的 q_layernorm=IdentityOp,以重现 ESM2,后者在 apply_rotary_pos_emb() 之前应用 1/sqrt(hidden_size_per_attention_head) 缩放。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
config
|
TransformerConfig
|
Megatron 配置。用于计算 projection_size |
必需 |
源代码位于 bionemo/llm/model/layers.py
46 47 48 49 50 51 52 53 54 55 56 57 58 |
|
TELayerNorm
基类:LayerNorm
源代码位于 bionemo/llm/model/layers.py
27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
|
__init__(config, *args, **kwargs)
Transformer Engine LayerNorm 的包装器,允许使用 TransformerConfig 进行初始化。这允许此方法在 Megatron layerspec 中使用。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
config
|
TransformerConfig
|
Megatron 配置。用于提取 sequence_parallel 和 zero_centered_gamma。配置的其余部分未使用。 |
必需 |
源代码位于 bionemo/llm/model/layers.py
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 |
|