NVIDIA Morpheus (24.10.01)

DFP 部署模块

此模块功能用于设置模块化数字指纹管道实例。

参数

类型

描述

示例值

默认值

inference_options dict 推理管道模块的选项 请参考下方 [必需]
training_options dict 训练管道模块的选项 请参考下方 [必需]

参数

类型

描述

示例值

默认值

batching_options dict 数据批处理的选项 请参考下方 -
cache_dir str 用于缓存滚动窗口数据的目录 "/path/to/cache/dir" "./.cache"
dfencoder_options dict 用于配置数据帧编码器的选项 请参考下方 -
mlflow_writer_options dict MLflow 模型写入器的选项 请参考下方 -
preprocessing_options dict 用于预处理数据的选项 请参考下方 -
stream_aggregation_options dict 用于按数据流聚合数据的选项 请参考下方 -
timestamp_column_name str 数据中使用的时间戳列的名称 "my_timestamp" "timestamp"
user_splitting_options dict 用于按用户拆分数据的选项 请参考下方 -

参数

类型

描述

示例值

默认值

batching_options dict 数据批处理的选项 请参考下方 -
cache_dir str 用于缓存滚动窗口数据的目录 "/path/to/cache/dir" "./.cache"
detection_criteria dict 用于过滤检测结果的标准 请参考下方 -
fallback_username str 如果未找到用户 ID,则使用的用户 ID "generic_user" "generic_user"
inference_options dict 推理模块的选项 请参考下方 -
model_name_formatter str 模型名称的格式字符串 "model_{timestamp}" [必需]
num_output_ports int 模块的输出端口数 3 -
timestamp_column_name str 输入数据中时间戳列的名称 "timestamp" "timestamp"
stream_aggregation_options dict 用于按数据流聚合数据的选项 请参考下方 -
user_splitting_options dict 用于按用户拆分数据的选项 请参考下方 -
write_to_file_options dict 用于将检测结果写入文件的选项 请参考下方 -

类型

描述

示例值

默认值

end_time datetime str 时间窗口的结束时间 "2023-03-14T23:59:59"
iso_date_regex_pattern str 用于 ISO 日期匹配的正则表达式模式 "\\d{4}-\\d{2}-\\d{2}T\\d{2}:\\d{2}:\\d{2}" <iso_date_regex_pattern>
parser_kwargs dict 解析器的附加参数 {} {}
period str 用于分组文件的时间段 "1d" D
sampling_rate_s int 采样率(秒) 0 None
start_time datetime str 时间窗口的开始时间 "2023-03-01T00:00:00"

参数

类型

描述

示例值

默认值

feature_columns list 要训练的特征列列表 ["column1", "column2", "column3"] -
epochs int 要训练的 epoch 数量 50 -
model_kwargs dict 传递给模型的关键字参数 {"encoder_layers": [64, 32], "decoder_layers": [32, 64], "activation": "relu", "swap_p": 0.1, "lr": 0.001, "lr_decay": 0.9, "batch_size": 32, "verbose": 1, "optimizer": "adam", "scalar": "min_max", "min_cats": 10, "progress_bar": False, "device": "cpu"} -
validation_size float 验证集的大小 0.1 -

类型

描述

示例值

默认值

description str 在控制台窗口中为此 Monitor Stage 显示的名称 "Progress" Progress
silence_monitors bool 静音控制台上的监视器 True False
smoothing float 平滑参数,用于确定吞吐量应平均化的程度 0.01 0.05
unit str 在速率值中显示的单位 "messages" "messages"
delayed_start bool 启用后,进度条将在收到第一条消息后显示。否则,进度条将在管道启动时显示并立即开始计时。在大型管道中,可能需要此选项以提供更准确的计时。 True False
determine_count_fn_schema str 用于确定消息中计数的自定义函数 "Progress" "Progress"
log_level str 当配置的日志级别为 log_level 或更低时启用此阶段。 "DEBUG" "INFO"

类型

描述

示例值

默认值

conda_env str 模型的 Conda 环境 "path/to/conda_env.yml" [必需]
databricks_permissions dict 模型的权限 请参考下方 None
experiment_name_formatter str 实验名称的格式化程序 "experiment_name_{timestamp}" [必需]
model_name_formatter str 模型名称的格式化程序 "model_name_{timestamp}" [必需]
timestamp_column_name str 时间戳列的名称 "timestamp" "timestamp"

参数

类型

描述

示例值

默认值

cache_mode str 用于管理用户缓存的模式。设置为 batch 会在满足触发条件时刷新缓存。否则,继续聚合用户的历史记录。 "batch" "batch"
min_history int 触发新训练事件的最小历史记录 1 1
max_history int 要包含在新训练事件中的最大历史记录 0 0
timestamp_column_name str 包含时间戳的列的名称 "timestamp" "timestamp"
aggregation_span str 新训练事件中训练数据的回顾时间跨度 "60d" "60d"
cache_to_disk bool 是否将流数据缓存到磁盘 False False
cache_dir str 用于缓存流数据的目录 "./.cache" "./.cache"

类型

描述

示例值

默认值

fallback_username str 如果未找到用户 ID,则使用的用户 ID "generic_user" "generic_user"
include_generic bool 是否在输出中包含通用用户 ID False False
include_individual bool 是否在输出中包含个人用户 ID True False
only_users list 要包含的用户 ID 列表;其他用户将被排除 ["user1", "user2", "user3"] []
skip_users list 要从输出中排除的用户 ID 列表 ["user4", "user5"] []
timestamp_column_name str 包含时间戳的列的名称 "timestamp" "timestamp"
userid_column_name str 包含用户 ID 的列的名称 "username" "username"

类型

描述

示例值

默认值

threshold float 用于过滤检测结果的阈值 0.5 0.5
field_name str 要按阈值过滤的字段名称 "score" "probs"

参数

类型

描述

示例值

默认值

model_name_formatter str 模型名称的格式化程序 "user_{username}_model" [必需]
fallback_username str 如果未找到用户的模型,则使用的回退用户 "generic_user" "generic_user"
timestamp_column_name str 时间戳列的名称 "timestamp" "timestamp"

类型

描述

示例值

默认值

filename str 输出文件的路径 "output.csv" None
file_type str 要写入的文件类型 "CSV" "AUTO"
flush bool 如果为 true,则在每次写入后刷新文件 False False
include_index_col bool 如果为 true,则包含索引列 False True
overwrite bool 如果为 true,则在文件存在时覆盖文件 True False
上一页 DFP 数据准备模块
下一页 dfp_inference_pipe
© 版权所有 2024, NVIDIA。 上次更新于 2024 年 12 月 3 日。