内容元数据
定义:
来源:从中提取内容和元数据的知识库文件
内容:从来源提取的数据:文本或图像
元数据:可与来源、内容(图像或文本)关联的描述性数据;元数据可以从来源/内容中提取,或使用模型、启发法等生成
字段 | 描述 | 方法 | |
---|---|---|---|
内容 | 内容 | 从来源提取的内容 | 已提取 |
来源元数据 | 来源名称 | 来源的名称 | 已提取 |
来源 ID | 来源的 ID | 已提取 | |
来源位置 | URL、URI、存储位置指针 | 不适用 | |
来源类型 | PDF、HTML、Docx、TXT、PPTx | 已提取 | |
集合 ID | 来源包含在其中的集合 | 不适用 | |
创建日期 | 来源创建的日期 | 已提取 | |
上次修改 | 来源上次修改的日期 | 已提取 | |
摘要 | 来源文档的摘要(尚未实施) | 已生成 | |
分区 ID | 此数据片段在较大片段集中的偏移量 | 已生成 | |
访问级别 | 决定 RBAC | 不适用 | |
内容元数据(适用于所有内容类型) | 类型 | 文本、图像、结构化、表格、图表 | 已生成 |
描述 | 内容对象(图像/表格)的文本描述 | 已生成 | |
页码 | 内容在来源中包含的页码 | 已提取 | |
层级结构 | 内容在源文档中的位置/顺序 | 已提取 | |
子类型 | 对于结构化数据子类型 - 表格、图表等。 | ||
文本元数据 | 文本类型 | 标题、正文等 | 已提取 |
摘要 | 内容的缩略摘要(尚未实施) | 已生成 | |
关键词 | 关键词、命名实体或其他短语 | 已提取 | |
语言 | 已生成 | ||
图像元数据 | 图像类型 | 结构化、自然、混合等 | 已生成(分类器) |
结构化图像类型 | 条形图、饼图等 | 已生成(分类器) | |
标题 | 与图像关联的任何标题或副标题 | 已提取 | |
文本 | 从结构化图表中提取的文本 | 已提取 | |
图像位置 | 图表在图像中的位置 (x,y) | 已提取 | |
图像位置最大尺寸 | 位置 (x,y) 的最大尺寸 (x_max,y_max) | 已提取 | |
uploaded_image_uri | 镜像 source_metadata.source_location | ||
表格元数据(文档中的表格) | 表格格式 | 结构化(dataframe / 行列列表),或序列化为 markdown、html、latex、简单(单元格仅以空格分隔) | 已提取 |
表格内容 | 提取的文本内容,根据 table_metadata.table_format 格式化。重要提示:表格不应分块 | 已提取 | |
表格位置 | 表格的边界框 | 已提取 | |
表格位置最大尺寸 | 表格边界框的最大尺寸 (x_max,y_max) | 已提取 | |
标题 | 检测到的表格/图表标题 | 已提取 | |
标题 | 待办 | 已提取 | |
副标题 | 待办 | 已提取 | |
轴 | 待办 | 已提取 | |
uploaded_image_uri | 镜像 source_metadata.source_location | 已生成 |