跳到内容

内容元数据

定义:

来源:从中提取内容和元数据的知识库文件

内容:从来源提取的数据:文本或图像

元数据:可与来源、内容(图像或文本)关联的描述性数据;元数据可以从来源/内容中提取,或使用模型、启发法等生成

字段 描述 方法
内容 内容 从来源提取的内容 已提取
来源元数据 来源名称 来源的名称 已提取
来源 ID 来源的 ID 已提取
来源位置 URL、URI、存储位置指针 不适用
来源类型 PDF、HTML、Docx、TXT、PPTx 已提取
集合 ID 来源包含在其中的集合 不适用
创建日期 来源创建的日期 已提取
上次修改 来源上次修改的日期 已提取
摘要 来源文档的摘要(尚未实施) 已生成
分区 ID 此数据片段在较大片段集中的偏移量 已生成
访问级别 决定 RBAC 不适用
内容元数据(适用于所有内容类型) 类型 文本、图像、结构化、表格、图表 已生成
描述 内容对象(图像/表格)的文本描述 已生成
页码 内容在来源中包含的页码 已提取
层级结构 内容在源文档中的位置/顺序 已提取
子类型 对于结构化数据子类型 - 表格、图表等。
文本元数据 文本类型 标题、正文等 已提取
摘要 内容的缩略摘要(尚未实施) 已生成
关键词 关键词、命名实体或其他短语 已提取
语言 已生成
图像元数据 图像类型 结构化、自然、混合等 已生成(分类器)
结构化图像类型 条形图、饼图等 已生成(分类器)
标题 与图像关联的任何标题或副标题 已提取
文本 从结构化图表中提取的文本 已提取
图像位置 图表在图像中的位置 (x,y) 已提取
图像位置最大尺寸 位置 (x,y) 的最大尺寸 (x_max,y_max) 已提取
uploaded_image_uri 镜像 source_metadata.source_location
表格元数据(文档中的表格) 表格格式 结构化(dataframe / 行列列表),或序列化为 markdown、html、latex、简单(单元格仅以空格分隔) 已提取
表格内容 提取的文本内容,根据 table_metadata.table_format 格式化。重要提示:表格不应分块 已提取
表格位置 表格的边界框 已提取
表格位置最大尺寸 表格边界框的最大尺寸 (x_max,y_max) 已提取
标题 检测到的表格/图表标题 已提取
标题 待办 已提取
副标题 待办 已提取
待办 已提取
uploaded_image_uri 镜像 source_metadata.source_location 已生成