NVIDIA Morpheus (24.10.01)

DFP 训练管道模块

此模块功能将与训练过程相关的多个 DFP 管道模块整合到一个模块中。

类型

描述

示例值

默认值

timestamp_column_name str 数据中使用的时间戳列的名称。 "timestamp" -
cache_dir str 用于缓存滚动窗口数据的目录。 "/tmp/cache" -
batching_options dict 用于批处理文件的选项。 请参阅下文 -
user_splitting_options dict 用于按用户拆分数据的选项。 请参阅下文 -
stream_aggregation_options dict 用于按流聚合数据的选项。 请参阅下文 -
preprocessing_options dict 用于预处理数据的选项。 - -
dfencoder_options dict 用于配置数据帧编码器的选项,用于训练模型。 请参阅下文 -
mlflow_writer_options dict 用于 MLflow 模型写入器的选项,该写入器负责保存训练后的模型。 请参阅下文 -

类型

描述

示例值

默认值

end_time str 要处理的时间范围的结束时间。 "2023-03-01T00:00:00" -
iso_date_regex_pattern str ISO 日期正则表达式模式。 "\\\\d{4}-\\\\d{2}-\\\\d{2}T\\\\d{2}:\\\\d{2}:\\\\d{2}" -
parser_kwargs dict 传递给解析器的关键字参数。 {} -
period str 用于批处理数据的时间段。 "1min" -
sampling_rate_s float 采样率,以秒为单位。 60 -
start_time str 要处理的时间范围的开始时间。 "2023-02-01T00:00:00" -

类型

描述

示例值

默认值

fallback_username str 如果未找到用户的模型,则使用的回退用户。 "generic" -
include_generic bool 在结果中包含通用模型。 true -
include_individual bool 在结果中包含个体模型。 true -
only_users list[str] 要包含在结果中的用户列表。 [] -
skip_users list[str] 要从结果中排除的用户列表。 [] -
userid_column_name str 用户 ID 的列名。 "user_id" -

类型

描述

示例值

默认值

cache_mode str 用于管理用户缓存的模式。设置为 batch 会在满足触发条件时刷新缓存。否则,继续聚合用户的历史记录。 "batch" "batch"
min_history int 触发新训练事件的最小历史记录 1 1
max_history int 要包含在新训练事件中的最大历史记录 0 0
timestamp_column_name str 包含时间戳的列的名称 'timestamp' 'timestamp'
aggregation_span str 新训练事件中训练数据的回溯时间跨度 "60d" 60d
cache_to_disk bool 是否将流数据缓存到磁盘 false false
cache_dir str 用于缓存流数据的目录 "./.cache" "./.cache"

参数

类型

描述

示例值

默认值

feature_columns list 要训练的特征列列表 ["column1", "column2", "column3"] -
epochs int 要训练的 epoch 数量 50 -
model_kwargs dict 传递给模型的关键字参数 {"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": false, "device": "cpu"} -
validation_size float 验证集的大小 0.1 -

类型

描述

示例值

默认值

conda_env str 模型的 Conda 环境 "path/to/conda_env.yml" [必需]
databricks_permissions dict 模型的权限 - None
experiment_name_formatter str 实验名称的格式化程序 "experiment_name_{timestamp}" [必需]
model_name_formatter str 模型名称的格式化程序 "model_name_{timestamp}" [必需]
timestamp_column_name str 时间戳列的名称 "timestamp" "timestamp"
上一页 DFP 用户拆分模块
下一页 DFP 训练模块
© 版权所有 2024, NVIDIA。 上次更新于 2024 年 12 月 3 日。