文件到 DataFrame 模块
此模块从批处理文件中读取数据到 DataFrame 中,在接收到来自 FileBatcher
模块的输入后执行。除了从磁盘加载数据外,它还能够从 S3 存储桶加载文件内容。
参数 |
类型 |
描述 |
示例值 |
默认值 |
---|---|---|---|---|
cache_dir |
string | 用于缓存滚动窗口数据的目录 | "/path/to/cache" |
- |
file_type |
string | 输入文件的类型 | "csv" |
"JSON" |
filter_null |
boolean | 是否过滤掉空值 | True |
False |
parser_kwargs |
dictionary | 传递给解析器的关键字参数 | {"delimiter": ","} |
- |
schema |
dictionary | 输入数据的模式 | 请参阅下文 | - |
timestamp_column_name |
string | 时间戳列的名称 | "timestamp" |
- |
{
"cache_dir": "/path/to/cache",
"file_type": "csv",
"filter_null": true,
"parser_kwargs": {
"delimiter": ","
},
"schema": {
"schema_str": "string",
"encoding": "latin1"
},
"timestamp_column_name": "timestamp"
}