Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

吐司AI

Introducción general

它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型:视觉模型(Vision Grid Transformer,简称VGT)和LightGBM模型。前者精度高但耗资源,后者速度快且省资源。当前版本是v0.0.21,免费开放在GitHub上,适合需要处理PDF的研究人员、档案管理员等。

自动解析PDF内容并提取文字与表格的开源服务

 

Lista de funciones

  • 自动识别PDF页面中的文字、标题、图片、表格、公式等元素。
  • 支持OCR功能,将扫描PDF转为可搜索文本。
  • 判断页面元素的正确阅读顺序。
  • 提供视觉模型(VGT)和LightGBM模型两种分析模式。
  • 提取表格并支持多种格式输出,如Markdown、LaTeX、HTML。
  • 提取公式并默认输出LaTeX格式。
  • 支持多语言OCR,如英语、韩语等。
  • 提供API接口,可集成到其他项目。
  • 支持可视化输出,生成带标注的PDF。

 

Utilizar la ayuda

Proceso de instalación

这个工具用Docker运行,安装步骤如下:

  1. Preparar el entorno
    先安装Docker。去Docker官网下载并安装。安装后,在终端输入:
docker --version

如果显示版本号,说明成功。如果用GPU,还需安装NVIDIA容器工具包,参考安装指南.

  1. 拉取镜像
    在终端输入命令,拉取工具镜像:
  • 有GPU:
    docker pull huridocs/pdf-document-layout-analysis:v0.0.21
    
  • 无GPU:
    docker pull huridocs/pdf-document-layout-analysis:v0.0.21
    
  1. 运行服务
    启动服务,分两种情况:
  • 有GPU:
    docker run --rm --name pdf-analysis --gpus '"device=0"' -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
    
  • 无GPU:
    docker run --rm --name pdf-analysis -p 5060:5060 huridocs/pdf-document-layout-analysis:v0.0.21
    

服务启动后,默认监听5060端口。如果端口被占用,可改成其他端口,如5061。

  1. 验证服务
    Abra su navegador y visitehttp://localhost:5060/info,如果返回版本信息,说明运行正常。

Cómo utilizar las principales funciones

工具通过API操作,常用功能如下:

1. OCR功能

要把扫描PDF转为可搜索文本,可以用OCR。

  • procedimiento::
    准备一个PDF,比如test.pdf,在终端运行:
curl -X POST -F 'language=en' -F 'file=@/path/to/test.pdf' localhost:5060/ocr --output result.pdf
  • language=en是英语,可换成kor(韩语)等。支持语言可通过curl localhost:5060/info查看。
  • /path/to/test.pdf是文件路径,如/home/user/test.pdf.
  • 输出文件result.pdf会保存在当前目录。
  • al final::
    得到一个可搜索的PDF,文字能复制。

2. 布局分析

要提取PDF中的元素并分析布局:

  • procedimiento::
    Corriendo:
curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060 --output analysis.json
  • 输出文件analysis.json包含元素信息,如位置、类型(文字、表格等)。
  • al final::
    JSON文件列出每个元素的详细信息。

3. 快速模式

想更快处理,用LightGBM模型,加参数fast=true::

curl -X POST -F 'file=@/path/to/test.pdf' -F 'fast=true' localhost:5060 --output fast_analysis.json
  • tenga en cuenta:速度快,但精度略低。

4. 表格和公式提取

  • 提取表格::
    指定格式(如Markdown):
curl -X POST -F 'file=@/path/to/test.pdf' -F 'extraction_format=markdown' localhost:5060 --output table.json

支持markdownylatexyhtmlFormato.

  • 提取公式::
    默认输出LaTeX格式,直接用布局分析命令即可。

5. 可视化输出

想看到标注后的PDF:

curl -X POST -F 'file=@/path/to/test.pdf' localhost:5060/visualize --output visualized.pdf
  • al final::
    输出PDF会标注每个元素的位置和类型。

6. 添加语言支持

默认支持少数语言,想加更多语言(如中文):

  • 进入容器:
docker exec -it --user root pdf-analysis /bin/bash
  • 安装语言包,例如中文:
apt-get install tesseract-ocr-chi-sim
  • 检查:
curl localhost:5060/info

看到chi_sim说明成功。

7. 停止服务

停止服务:

docker stop pdf-analysis

输出元素顺序

分析结果按特定顺序排列。工具用Poppler确定初始阅读顺序,再根据元素类型调整:

  • 页眉(header)排最前,按内部顺序排序。
  • 普通元素(文字、表格等)按平均阅读顺序排列。
  • 页脚(footer)和脚注(footnote)放最后。
  • 无文字的元素(如图片)根据最近有文字的元素顺序排列。

advertencia

  • requisitos de hardware:视觉模型需GPU和5GB显存,无GPU时用CPU会很慢。LightGBM只用CPU,需2GB内存。
  • 速度:15页学术论文,快速模式0.42秒/页,VGT(GPU)1.75秒/页,VGT(CPU)13.5秒/页。
  • ajustar los componentes durante las pruebas:出错时查看日志:
docker logs pdf-analysis

这些功能和步骤能帮你快速上手,处理各种PDF需求。

 

escenario de aplicación

  1. investigación académica
    研究人员用它提取论文中的表格和公式,整理数据更高效。
  2. 档案管理
    档案员把老文档扫描件转为可搜索PDF,查找方便。
  3. 法律工作
    律师分析合同PDF,快速定位条款和表格。

 

CONTROL DE CALIDAD

  1. 收费吗?
    不收费。这是开源工具,GitHub上免费下载使用。
  2. ¿Necesito trabajar en red?
    下载镜像需联网,之后可离线运行。
  3. ¿Es compatible con el chino?
    支持。需手动安装中文包(如tesseract-ocr-chi-sim),效果比英文略差但可用。
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...