NVIDIA Morpheus (24.10.01)

NVIDIA 文档中心 NVIDIA Morpheus NVIDIA Morpheus (24.10.01) DFP 部署模块

DFP 部署模块

此模块功能用于设置模块化数字指纹管道实例。

可配置参数

参数	类型	描述	示例值	默认值
`inference_options`	`dict`	推理管道模块的选项	请参考下方	`[必需]`
`training_options`	`dict`	训练管道模块的选项	请参考下方	`[必需]`

训练选项参数

参数	类型	描述	示例值	默认值
`batching_options`	`dict`	数据批处理的选项	请参考下方	`-`
`cache_dir`	`str`	用于缓存滚动窗口数据的目录	`"/path/to/cache/dir"`	`"./.cache"`
`dfencoder_options`	`dict`	用于配置数据帧编码器的选项	请参考下方	`-`
`mlflow_writer_options`	`dict`	MLflow 模型写入器的选项	请参考下方	`-`
`preprocessing_options`	`dict`	用于预处理数据的选项	请参考下方	`-`
`stream_aggregation_options`	`dict`	用于按数据流聚合数据的选项	请参考下方	`-`
`timestamp_column_name`	`str`	数据中使用的时间戳列的名称	`"my_timestamp"`	`"timestamp"`
`user_splitting_options`	`dict`	用于按用户拆分数据的选项	请参考下方	`-`

推理选项参数

参数	类型	描述	示例值	默认值
`batching_options`	`dict`	数据批处理的选项	请参考下方	`-`
`cache_dir`	`str`	用于缓存滚动窗口数据的目录	`"/path/to/cache/dir"`	`"./.cache"`
`detection_criteria`	`dict`	用于过滤检测结果的标准	请参考下方	`-`
`fallback_username`	`str`	如果未找到用户 ID，则使用的用户 ID	`"generic_user"`	`"generic_user"`
`inference_options`	`dict`	推理模块的选项	请参考下方	`-`
`model_name_formatter`	`str`	模型名称的格式字符串	`"model_{timestamp}"`	`[必需]`
`num_output_ports`	`int`	模块的输出端口数	`3`	`-`
`timestamp_column_name`	`str`	输入数据中时间戳列的名称	`"timestamp"`	`"timestamp"`
`stream_aggregation_options`	`dict`	用于按数据流聚合数据的选项	请参考下方	`-`
`user_splitting_options`	`dict`	用于按用户拆分数据的选项	请参考下方	`-`
`write_to_file_options`	`dict`	用于将检测结果写入文件的选项	请参考下方	`-`

batching_options

键	类型	描述	示例值	默认值
`end_time`	`datetime`	`str`	时间窗口的结束时间	`"2023-03-14T23:59:59"`
`iso_date_regex_pattern`	`str`	用于 ISO 日期匹配的正则表达式模式	`"\\d{4}-\\d{2}-\\d{2}T\\d{2}:\\d{2}:\\d{2}"`	`<iso_date_regex_pattern>`
`parser_kwargs`	`dict`	解析器的附加参数	`{}`	`{}`
`period`	`str`	用于分组文件的时间段	`"1d"`	`D`
`sampling_rate_s`	`int`	采样率（秒）	`0`	`None`
`start_time`	`datetime`	`str`	时间窗口的开始时间	`"2023-03-01T00:00:00"`

dfencoder_options

参数	类型	描述	示例值	默认值
`feature_columns`	`list`	要训练的特征列列表	`["column1", "column2", "column3"]`	`-`
`epochs`	`int`	要训练的 epoch 数量	`50`	`-`
`model_kwargs`	`dict`	传递给模型的关键字参数	`{"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": False, "device": "cpu"}`	`-`
`validation_size`	`float`	验证集的大小	`0.1`	`-`

monitor_options

键	类型	描述	示例值	默认值
`description`	`str`	在控制台窗口中为此 Monitor Stage 显示的名称	`"Progress"`	`Progress`
`silence_monitors`	`bool`	静音控制台上的监视器	`True`	`False`
`smoothing`	`float`	平滑参数，用于确定吞吐量应平均化的程度	`0.01`	`0.05`
`unit`	`str`	在速率值中显示的单位	`"messages"`	`"messages"`
`delayed_start`	`bool`	启用后，进度条将在收到第一条消息后显示。否则，进度条将在管道启动时显示并立即开始计时。在大型管道中，可能需要此选项以提供更准确的计时。	`True`	`False`
`determine_count_fn_schema`	`str`	用于确定消息中计数的自定义函数	`"Progress"`	`"Progress"`
`log_level`	`str`	当配置的日志级别为 `log_level` 或更低时启用此阶段。	`"DEBUG"`	`"INFO"`

mlflow_writer_options

键	类型	描述	示例值	默认值
`conda_env`	`str`	模型的 Conda 环境	`"path/to/conda_env.yml"`	`[必需]`
`databricks_permissions`	`dict`	模型的权限	请参考下方	`None`
`experiment_name_formatter`	`str`	实验名称的格式化程序	`"experiment_name_{timestamp}"`	`[必需]`
`model_name_formatter`	`str`	模型名称的格式化程序	`"model_name_{timestamp}"`	`[必需]`
`timestamp_column_name`	`str`	时间戳列的名称	`"timestamp"`	`"timestamp"`

stream_aggregation_options

参数	类型	描述	示例值	默认值
`cache_mode`	`str`	用于管理用户缓存的模式。设置为 `batch` 会在满足触发条件时刷新缓存。否则，继续聚合用户的历史记录。	`"batch"`	`"batch"`
`min_history`	`int`	触发新训练事件的最小历史记录	`1`	`1`
`max_history`	`int`	要包含在新训练事件中的最大历史记录	`0`	`0`
`timestamp_column_name`	`str`	包含时间戳的列的名称	`"timestamp"`	`"timestamp"`
`aggregation_span`	`str`	新训练事件中训练数据的回顾时间跨度	`"60d"`	`"60d"`
`cache_to_disk`	`bool`	是否将流数据缓存到磁盘	`False`	`False`
`cache_dir`	`str`	用于缓存流数据的目录	`"./.cache"`	`"./.cache"`

user_splitting_options

键	类型	描述	示例值	默认值
`fallback_username`	`str`	如果未找到用户 ID，则使用的用户 ID	`"generic_user"`	`"generic_user"`
`include_generic`	`bool`	是否在输出中包含通用用户 ID	`False`	`False`
`include_individual`	`bool`	是否在输出中包含个人用户 ID	`True`	`False`
`only_users`	`list`	要包含的用户 ID 列表；其他用户将被排除	`["user1", "user2", "user3"]`	`[]`
`skip_users`	`list`	要从输出中排除的用户 ID 列表	`["user4", "user5"]`	`[]`
`timestamp_column_name`	`str`	包含时间戳的列的名称	`"timestamp"`	`"timestamp"`
`userid_column_name`	`str`	包含用户 ID 的列的名称	`"username"`	`"username"`

detection_criteria

键	类型	描述	示例值	默认值
`threshold`	`float`	用于过滤检测结果的阈值	`0.5`	`0.5`
`field_name`	`str`	要按阈值过滤的字段名称	`"score"`	`"probs"`

inference_options

参数	类型	描述	示例值	默认值
`model_name_formatter`	`str`	模型名称的格式化程序	`"user_{username}_model"`	`[必需]`
`fallback_username`	`str`	如果未找到用户的模型，则使用的回退用户	`"generic_user"`	`"generic_user"`
`timestamp_column_name`	`str`	时间戳列的名称	`"timestamp"`	`"timestamp"`

write_to_file_options

键	类型	描述	示例值	默认值
`filename`	`str`	输出文件的路径	`"output.csv"`	`None`
`file_type`	`str`	要写入的文件类型	`"CSV"`	`"AUTO"`
`flush`	`bool`	如果为 true，则在每次写入后刷新文件	`False`	`False`
`include_index_col`	`bool`	如果为 true，则包含索引列	`False`	`True`
`overwrite`	`bool`	如果为 true，则在文件存在时覆盖文件	`True`	`False`

上一页 DFP 数据准备模块

下一页 dfp_inference_pipe

© 版权所有 2024, NVIDIA。上次更新于 2024 年 12 月 3 日。