DFP 部署模块
此模块功能用于设置模块化数字指纹管道实例。
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
inference_options |
dict |
推理管道模块的选项 | 请参考下方 | [必需] |
training_options |
dict |
训练管道模块的选项 | 请参考下方 | [必需] |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
batching_options |
dict |
数据批处理的选项 | 请参考下方 | - |
cache_dir |
str |
用于缓存滚动窗口数据的目录 | "/path/to/cache/dir" |
"./.cache" |
dfencoder_options |
dict |
用于配置数据帧编码器的选项 | 请参考下方 | - |
mlflow_writer_options |
dict |
MLflow 模型写入器的选项 | 请参考下方 | - |
preprocessing_options |
dict |
用于预处理数据的选项 | 请参考下方 | - |
stream_aggregation_options |
dict |
用于按数据流聚合数据的选项 | 请参考下方 | - |
timestamp_column_name |
str |
数据中使用的时间戳列的名称 | "my_timestamp" |
"timestamp" |
user_splitting_options |
dict |
用于按用户拆分数据的选项 | 请参考下方 | - |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
batching_options |
dict |
数据批处理的选项 | 请参考下方 | - |
cache_dir |
str |
用于缓存滚动窗口数据的目录 | "/path/to/cache/dir" |
"./.cache" |
detection_criteria |
dict |
用于过滤检测结果的标准 | 请参考下方 | - |
fallback_username |
str |
如果未找到用户 ID,则使用的用户 ID | "generic_user" |
"generic_user" |
inference_options |
dict |
推理模块的选项 | 请参考下方 | - |
model_name_formatter |
str |
模型名称的格式字符串 | "model_{timestamp}" |
[必需] |
num_output_ports |
int |
模块的输出端口数 | 3 |
- |
timestamp_column_name |
str |
输入数据中时间戳列的名称 | "timestamp" |
"timestamp" |
stream_aggregation_options |
dict |
用于按数据流聚合数据的选项 | 请参考下方 | - |
user_splitting_options |
dict |
用于按用户拆分数据的选项 | 请参考下方 | - |
write_to_file_options |
dict |
用于将检测结果写入文件的选项 | 请参考下方 | - |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
end_time |
datetime |
str |
时间窗口的结束时间 | "2023-03-14T23:59:59" |
iso_date_regex_pattern |
str |
用于 ISO 日期匹配的正则表达式模式 | "\\d{4}-\\d{2}-\\d{2}T\\d{2}:\\d{2}:\\d{2}" |
<iso_date_regex_pattern> |
parser_kwargs |
dict |
解析器的附加参数 | {} |
{} |
period |
str |
用于分组文件的时间段 | "1d" |
D |
sampling_rate_s |
int |
采样率(秒) | 0 |
None |
start_time |
datetime |
str |
时间窗口的开始时间 | "2023-03-01T00:00:00" |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
feature_columns |
list |
要训练的特征列列表 | ["column1", "column2", "column3"] |
- |
epochs |
int |
要训练的 epoch 数量 | 50 |
- |
model_kwargs |
dict |
传递给模型的关键字参数 | {"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": False, "device": "cpu"} |
- |
validation_size |
float |
验证集的大小 | 0.1 |
- |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
description |
str |
在控制台窗口中为此 Monitor Stage 显示的名称 | "Progress" |
Progress |
silence_monitors |
bool |
静音控制台上的监视器 | True |
False |
smoothing |
float |
平滑参数,用于确定吞吐量应平均化的程度 | 0.01 |
0.05 |
unit |
str |
在速率值中显示的单位 | "messages" |
"messages" |
delayed_start |
bool |
启用后,进度条将在收到第一条消息后显示。否则,进度条将在管道启动时显示并立即开始计时。在大型管道中,可能需要此选项以提供更准确的计时。 | True |
False |
determine_count_fn_schema |
str |
用于确定消息中计数的自定义函数 | "Progress" |
"Progress" |
log_level |
str |
当配置的日志级别为 log_level 或更低时启用此阶段。 |
"DEBUG" |
"INFO" |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
conda_env |
str |
模型的 Conda 环境 | "path/to/conda_env.yml" |
[必需] |
databricks_permissions |
dict |
模型的权限 | 请参考下方 | None |
experiment_name_formatter |
str |
实验名称的格式化程序 | "experiment_name_{timestamp}" |
[必需] |
model_name_formatter |
str |
模型名称的格式化程序 | "model_name_{timestamp}" |
[必需] |
timestamp_column_name |
str |
时间戳列的名称 | "timestamp" |
"timestamp" |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
cache_mode |
str |
用于管理用户缓存的模式。设置为 batch 会在满足触发条件时刷新缓存。否则,继续聚合用户的历史记录。 |
"batch" |
"batch" |
min_history |
int |
触发新训练事件的最小历史记录 | 1 |
1 |
max_history |
int |
要包含在新训练事件中的最大历史记录 | 0 |
0 |
timestamp_column_name |
str |
包含时间戳的列的名称 | "timestamp" |
"timestamp" |
aggregation_span |
str |
新训练事件中训练数据的回顾时间跨度 | "60d" |
"60d" |
cache_to_disk |
bool |
是否将流数据缓存到磁盘 | False |
False |
cache_dir |
str |
用于缓存流数据的目录 | "./.cache" |
"./.cache" |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
fallback_username |
str |
如果未找到用户 ID,则使用的用户 ID | "generic_user" |
"generic_user" |
include_generic |
bool |
是否在输出中包含通用用户 ID | False |
False |
include_individual |
bool |
是否在输出中包含个人用户 ID | True |
False |
only_users |
list |
要包含的用户 ID 列表;其他用户将被排除 | ["user1", "user2", "user3"] |
[] |
skip_users |
list |
要从输出中排除的用户 ID 列表 | ["user4", "user5"] |
[] |
timestamp_column_name |
str |
包含时间戳的列的名称 | "timestamp" |
"timestamp" |
userid_column_name |
str |
包含用户 ID 的列的名称 | "username" |
"username" |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
threshold |
float |
用于过滤检测结果的阈值 | 0.5 |
0.5 |
field_name |
str |
要按阈值过滤的字段名称 | "score" |
"probs" |
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
model_name_formatter |
str |
模型名称的格式化程序 | "user_{username}_model" |
[必需] |
fallback_username |
str |
如果未找到用户的模型,则使用的回退用户 | "generic_user" |
"generic_user" |
timestamp_column_name |
str |
时间戳列的名称 | "timestamp" |
"timestamp" |
键 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
filename |
str |
输出文件的路径 | "output.csv" |
None |
file_type |
str |
要写入的文件类型 | "CSV" |
"AUTO" |
flush |
bool |
如果为 true,则在每次写入后刷新文件 | False |
False |
include_index_col |
bool |
如果为 true,则包含索引列 | False |
True |
overwrite |
bool |
如果为 true,则在文件存在时覆盖文件 | True |
False |