NVIDIA Morpheus (24.10.01)

NVIDIA 文档中心 NVIDIA Morpheus NVIDIA Morpheus (24.10.01) DFP 训练管道模块

DFP 训练管道模块

此模块功能将与训练过程相关的多个 DFP 管道模块整合到一个模块中。

可配置参数

键	类型	描述	示例值	默认值
`timestamp_column_name`	`str`	数据中使用的时间戳列的名称。	`"timestamp"`	`-`
`cache_dir`	`str`	用于缓存滚动窗口数据的目录。	`"/tmp/cache"`	`-`
`batching_options`	`dict`	用于批处理文件的选项。	请参阅下文	`-`
`user_splitting_options`	`dict`	用于按用户拆分数据的选项。	请参阅下文	`-`
`stream_aggregation_options`	`dict`	用于按流聚合数据的选项。	请参阅下文	`-`
`preprocessing_options`	`dict`	用于预处理数据的选项。	`-`	`-`
`dfencoder_options`	`dict`	用于配置数据帧编码器的选项，用于训练模型。	请参阅下文	`-`
`mlflow_writer_options`	`dict`	用于 MLflow 模型写入器的选项，该写入器负责保存训练后的模型。	请参阅下文	`-`

batching_options

键	类型	描述	示例值	默认值
`end_time`	`str`	要处理的时间范围的结束时间。	`"2023-03-01T00:00:00"`	`-`
`iso_date_regex_pattern`	`str`	ISO 日期正则表达式模式。	`"\\\\d{4}-\\\\d{2}-\\\\d{2}T\\\\d{2}:\\\\d{2}:\\\\d{2}"`	`-`
`parser_kwargs`	`dict`	传递给解析器的关键字参数。	`{}`	`-`
`period`	`str`	用于批处理数据的时间段。	`"1min"`	`-`
`sampling_rate_s`	`float`	采样率，以秒为单位。	`60`	`-`
`start_time`	`str`	要处理的时间范围的开始时间。	`"2023-02-01T00:00:00"`	`-`

user_splitting_options

键	类型	描述	示例值	默认值
`fallback_username`	`str`	如果未找到用户的模型，则使用的回退用户。	`"generic"`	`-`
`include_generic`	`bool`	在结果中包含通用模型。	`true`	`-`
`include_individual`	`bool`	在结果中包含个体模型。	`true`	`-`
`only_users`	`list[str]`	要包含在结果中的用户列表。	`[]`	`-`
`skip_users`	`list[str]`	要从结果中排除的用户列表。	`[]`	`-`
`userid_column_name`	`str`	用户 ID 的列名。	`"user_id"`	`-`

stream_aggregation_options

键	类型	描述	示例值	默认值
`cache_mode`	`str`	用于管理用户缓存的模式。设置为 `batch` 会在满足触发条件时刷新缓存。否则，继续聚合用户的历史记录。	`"batch"`	`"batch"`
`min_history`	`int`	触发新训练事件的最小历史记录	`1`	`1`
`max_history`	`int`	要包含在新训练事件中的最大历史记录	`0`	`0`
`timestamp_column_name`	`str`	包含时间戳的列的名称	`'timestamp'`	`'timestamp'`
`aggregation_span`	`str`	新训练事件中训练数据的回溯时间跨度	`"60d"`	`60d`
`cache_to_disk`	`bool`	是否将流数据缓存到磁盘	`false`	`false`
`cache_dir`	`str`	用于缓存流数据的目录	`"./.cache"`	`"./.cache"`

dfencoder_options

参数	类型	描述	示例值	默认值
`feature_columns`	`list`	要训练的特征列列表	`["column1", "column2", "column3"]`	`-`
`epochs`	`int`	要训练的 epoch 数量	`50`	`-`
`model_kwargs`	`dict`	传递给模型的关键字参数	`{"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": false, "device": "cpu"}`	`-`
`validation_size`	`float`	验证集的大小	`0.1`	`-`

mlflow_writer_options

键	类型	描述	示例值	默认值
`conda_env`	`str`	模型的 Conda 环境	`"path/to/conda_env.yml"`	`[必需]`
`databricks_permissions`	`dict`	模型的权限	-	`None`
`experiment_name_formatter`	`str`	实验名称的格式化程序	`"experiment_name_{timestamp}"`	`[必需]`
`model_name_formatter`	`str`	模型名称的格式化程序	`"model_name_{timestamp}"`	`[必需]`
`timestamp_column_name`	`str`	时间戳列的名称	`"timestamp"`	`"timestamp"`

上一页 DFP 用户拆分模块

下一页 DFP 训练模块

© 版权所有 2024, NVIDIA。上次更新于 2024 年 12 月 3 日。