PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

吐司AI

Introducción general

PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Está desarrollada por oomol-lab y alojada en GitHub para los usuarios a los que les gusta organizar sus libros electrónicos. La herramienta se ejecuta a través de un modelo de IA local y no requiere conexión a Internet, lo que protege la privacidad y facilita el funcionamiento. Extrae el cuerpo del texto de los documentos escaneados, elimina elementos varios, como encabezados y pies de página, y produce un archivo Markdown limpio, especialmente adecuado para organizar libros antiguos o material de investigación.

PDF Craft:PDF扫描文件转Markdown的开源工具

 

Lista de funciones

  • Convierte PDF de libros escaneados a formato Markdown con soporte de procesamiento nativo.
  • Extraiga el contenido del cuerpo y filtre automáticamente encabezados, pies de página y números de página.
  • Maneje el texto a través de las páginas y mantenga la coherencia de las frases.
  • Admite ilustraciones y capturas de pantalla de tablas, incrustadas en archivos Markdown.
  • Utilizar la IA para analizar la disposición de las páginas y organizar el texto en orden de lectura.
  • Ampliable a formato EPUB para generar archivos de libros electrónicos.

 

Utilizar la ayuda

PDF Craft se centra en la digitalización de libros de PDF a Markdown.Aquí están los pasos detallados de instalación y uso para ayudarle a empezar rápidamente.

Proceso de instalación

  1. Preparar el entorno
    Necesitarás un ordenador con Python 3.8 o superior instalado. Asegúrate de que hay espacio suficiente en tu disco duro para almacenar tus modelos de IA.
  2. Descargar código
    Abra un terminal e introduzca el comando Clonar proyecto:
git clone https://github.com/oomol-lab/pdf-craft.git

A continuación, vaya al catálogo:

cd pdf-craft
  1. Instalación de dependencias
    Introduzca el siguiente comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt

Si tienes una GPU, puedes añadir soporte CUDA:

pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
  1. Obtener el modelo
    En la primera ejecución, la herramienta descargará automáticamente el modelo de IA (por ejemplo, DocLayout-YOLO). Manteniendo la red abierta, el modelo se guardará en <model_dir_path>(puede establecerse en el código).

flujo de trabajo

Convertir a Markdown

  1. Preparar PDF
    Coloque los PDF de los libros escaneados en una carpeta como /path/to/pdf/book.pdf.
  2. conversión en tiempo de ejecución
    Introduzca el siguiente código en el terminal:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
  • device="cpu"Funciona en la CPU. Soporte GPU lee device="cuda:0".
  • markdown_pathRuta del archivo Markdown de salida.
  • image_dir: Catálogo de ilustraciones guardadas.
  1. Ver resultados
    Cuando hayas terminado, abre el /path/to/output.md Comprueba el contenido. Las ilustraciones se guardan automáticamente en el images Carpeta.

Función destacada Operación

  • extracción de texto
    La herramienta reconoce las páginas escaneadas, elimina los encabezados y pies de página y conserva sólo el cuerpo del texto. No es necesario limpiar el desorden manualmente.
  • tratamiento cruzado de páginas
    Si una frase queda truncada por un salto de página, PDF Craft la conecta automáticamente para garantizar que el texto fluya sin problemas.
  • Incrustación de ilustraciones
    Las imágenes o tablas de los libros escaneados se capturarán en pantalla y se incrustarán en Markdown. puede encontrarlas en la sección images para encontrarlos.

consejo

  • La calidad del escaneado del PDF debe ser clara, de lo contrario el reconocimiento puede ser erróneo.
  • La primera ejecución descargará el modelo, después estará disponible sin conexión.
  • Si va lento, prueba a acelerar la GPU o a reducir el número de páginas.

 

escenario de aplicación

  1. Organizar libros viejos
    PDF Craft puede eliminar el desorden y producir archivos limpios.
  2. Conversión de datos de investigación
    Los académicos necesitan convertir documentos escaneados a Markdown para tomar notas. La herramienta conserva el texto y las ilustraciones para facilitar su citación.
  3. Producción de libros electrónicos
    Si desea convertir PDF escaneados en documentos Markdown editables, PDF Craft le ofrece soluciones sencillas.

 

CONTROL DE CALIDAD

  1. ¿Sólo permite escanear archivos PDF?
    Principalmente optimizado para PDF de libros escaneados. Los PDF de texto normal funcionarán, pero probablemente no tan bien como los documentos escaneados.
  2. ¿Qué hago con las imágenes después de la conversión?
    La imagen se guarda como captura de pantalla en una carpeta especificada y el enlace se incrusta automáticamente en Markdown.
  3. ¿Por qué es lenta la primera carrera?
    Porque tienes que descargar el modelo de IA. Después se vuelve más rápido.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...