跳到内容

什么是 NVIDIA-Ingest?

NV-Ingest 是一种可扩展的、面向性能的文档内容和元数据提取微服务。NV-Ingest 使用专门的 NVIDIA NIM 微服务来查找、关联和提取文本、表格、图表和图像,您可以在下游生成式应用程序中使用它们。

NV-Ingest 还支持将文档拆分为页面的过程并行化,其中内容被分类(例如表格、图表、图像、文本),提取到离散内容中,并通过光学字符识别 (OCR) 进一步关联到明确定义的 JSON 模式中。从那里,NVIDIA-Ingest 可以选择管理提取内容的嵌入计算,并可选择管理存储到向量数据库 Milvus 中。

[!Note] Cached 和 Deplot 已被弃用。现在,docker-compose 使用 beta 版本的 yolox-graphic-elements 容器。通过此更改,您现在应该能够在单个 80GB A100 或 H100 GPU 上运行 nv-ingest。如果您想使用旧的流水线(包含 Cached 和 Deplot),请使用 nv-ingest 24.12.1 版本

NVIDIA-Ingest 是 ✔️

NV-Ingest 是一种微服务,它执行以下操作

  • 接受 JSON 作业描述,其中包含文档负载以及要在该负载上执行的一组摄取任务。
  • 允许检索作业结果;结果是一个 JSON 字典,其中包含一个元数据列表,描述从基础文档中提取的对象,以及处理注释和计时/跟踪数据。
  • 支持 .pdf、.docx、.pptx 和图像。
  • 支持每种文档类型的多种提取方法,以平衡吞吐量和准确性之间的权衡。例如,对于 PDF 文档,我们支持通过 pdfium、Unstructured.io 和 Adobe Content Extraction Services 进行提取。
  • 支持各种类型的预处理和后处理操作,包括文本分割和分块、转换和过滤、嵌入生成以及图像卸载到存储。

NVIDIA-Ingest 不是 ✖️

NV-Ingest 不执行以下操作

  • 在每个提交的文档上运行静态流水线或固定操作集。
  • 充当任何特定文档解析库的包装器。