DFP 训练管道模块
此模块功能将与训练过程相关的多个 DFP 管道模块整合到一个模块中。
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
timestamp_column_name |
str |
数据中使用的时间戳列的名称。 | "timestamp" |
- |
cache_dir |
str |
用于缓存滚动窗口数据的目录。 | "/tmp/cache" |
- |
batching_options |
dict |
用于批处理文件的选项。 | 请参阅下文 | - |
user_splitting_options |
dict |
用于按用户拆分数据的选项。 | 请参阅下文 | - |
stream_aggregation_options |
dict |
用于按流聚合数据的选项。 | 请参阅下文 | - |
preprocessing_options |
dict |
用于预处理数据的选项。 | - |
- |
dfencoder_options |
dict |
用于配置数据帧编码器的选项,用于训练模型。 | 请参阅下文 | - |
mlflow_writer_options |
dict |
用于 MLflow 模型写入器的选项,该写入器负责保存训练后的模型。 | 请参阅下文 | - |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
end_time |
str |
要处理的时间范围的结束时间。 | "2023-03-01T00:00:00" |
- |
iso_date_regex_pattern |
str |
ISO 日期正则表达式模式。 | "\\\\d{4}-\\\\d{2}-\\\\d{2}T\\\\d{2}:\\\\d{2}:\\\\d{2}" |
- |
parser_kwargs |
dict |
传递给解析器的关键字参数。 | {} |
- |
period |
str |
用于批处理数据的时间段。 | "1min" |
- |
sampling_rate_s |
float |
采样率,以秒为单位。 | 60 |
- |
start_time |
str |
要处理的时间范围的开始时间。 | "2023-02-01T00:00:00" |
- |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
fallback_username |
str |
如果未找到用户的模型,则使用的回退用户。 | "generic" |
- |
include_generic |
bool |
在结果中包含通用模型。 | true |
- |
include_individual |
bool |
在结果中包含个体模型。 | true |
- |
only_users |
list[str] |
要包含在结果中的用户列表。 | [] |
- |
skip_users |
list[str] |
要从结果中排除的用户列表。 | [] |
- |
userid_column_name |
str |
用户 ID 的列名。 | "user_id" |
- |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
cache_mode |
str |
用于管理用户缓存的模式。设置为 batch 会在满足触发条件时刷新缓存。否则,继续聚合用户的历史记录。 |
"batch" |
"batch" |
min_history |
int |
触发新训练事件的最小历史记录 | 1 |
1 |
max_history |
int |
要包含在新训练事件中的最大历史记录 | 0 |
0 |
timestamp_column_name |
str |
包含时间戳的列的名称 | 'timestamp' |
'timestamp' |
aggregation_span |
str |
新训练事件中训练数据的回溯时间跨度 | "60d" |
60d |
cache_to_disk |
bool |
是否将流数据缓存到磁盘 | false |
false |
cache_dir |
str |
用于缓存流数据的目录 | "./.cache" |
"./.cache" |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
feature_columns |
list |
要训练的特征列列表 | ["column1", "column2", "column3"] |
- |
epochs |
int |
要训练的 epoch 数量 | 50 |
- |
model_kwargs |
dict |
传递给模型的关键字参数 | {"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": false, "device": "cpu"} |
- |
validation_size |
float |
验证集的大小 | 0.1 |
- |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
conda_env |
str |
模型的 Conda 环境 | "path/to/conda_env.yml" |
[必需] |
databricks_permissions |
dict |
模型的权限 | - | None |
experiment_name_formatter |
str |
实验名称的格式化程序 | "experiment_name_{timestamp}" |
[必需] |
model_name_formatter |
str |
模型名称的格式化程序 | "model_name_{timestamp}" |
[必需] |
timestamp_column_name |
str |
时间戳列的名称 | "timestamp" |
"timestamp" |