PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown
Introducción general
PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Está desarrollada por oomol-lab y alojada en GitHub para los usuarios a los que les gusta organizar sus libros electrónicos. La herramienta se ejecuta a través de un modelo de IA local y no requiere conexión a Internet, lo que protege la privacidad y facilita el funcionamiento. Extrae el cuerpo del texto de los documentos escaneados, elimina elementos varios, como encabezados y pies de página, y produce un archivo Markdown limpio, especialmente adecuado para organizar libros antiguos o material de investigación.

Lista de funciones
- Convierte PDF de libros escaneados a formato Markdown con soporte de procesamiento nativo.
- Extraiga el contenido del cuerpo y filtre automáticamente encabezados, pies de página y números de página.
- Maneje el texto a través de las páginas y mantenga la coherencia de las frases.
- Admite ilustraciones y capturas de pantalla de tablas, incrustadas en archivos Markdown.
- Utilizar la IA para analizar la disposición de las páginas y organizar el texto en orden de lectura.
- Ampliable a formato EPUB para generar archivos de libros electrónicos.
Utilizar la ayuda
PDF Craft se centra en la digitalización de libros de PDF a Markdown.Aquí están los pasos detallados de instalación y uso para ayudarle a empezar rápidamente.
Proceso de instalación
- Preparar el entorno
Necesitarás un ordenador con Python 3.8 o superior instalado. Asegúrate de que hay espacio suficiente en tu disco duro para almacenar tus modelos de IA. - Descargar código
Abra un terminal e introduzca el comando Clonar proyecto:
git clone https://github.com/oomol-lab/pdf-craft.git
A continuación, vaya al catálogo:
cd pdf-craft
- Instalación de dependencias
Introduzca el siguiente comando para instalar las bibliotecas necesarias:
pip install -r requirements.txt
Si tienes una GPU, puedes añadir soporte CUDA:
pip install torch --extra-index-url https://download.pytorch.org/whl/cu117
- Obtener el modelo
En la primera ejecución, la herramienta descargará automáticamente el modelo de IA (por ejemplo, DocLayout-YOLO). Manteniendo la red abierta, el modelo se guardará en<model_dir_path>
(puede establecerse en el código).
flujo de trabajo
Convertir a Markdown
- Preparar PDF
Coloque los PDF de los libros escaneados en una carpeta como/path/to/pdf/book.pdf
. - conversión en tiempo de ejecución
Introduzca el siguiente código en el terminal:
from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(device="cpu", model_dir_path="/path/to/model/dir/path")
with MarkDownWriter(markdown_path="/path/to/output.md", image_dir="images", encoding="utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/book.pdf"):
md.write(block)
device="cpu"
Funciona en la CPU. Soporte GPU leedevice="cuda:0"
.markdown_path
Ruta del archivo Markdown de salida.image_dir
: Catálogo de ilustraciones guardadas.
- Ver resultados
Cuando hayas terminado, abre el/path/to/output.md
Comprueba el contenido. Las ilustraciones se guardan automáticamente en elimages
Carpeta.
Función destacada Operación
- extracción de texto
La herramienta reconoce las páginas escaneadas, elimina los encabezados y pies de página y conserva sólo el cuerpo del texto. No es necesario limpiar el desorden manualmente. - tratamiento cruzado de páginas
Si una frase queda truncada por un salto de página, PDF Craft la conecta automáticamente para garantizar que el texto fluya sin problemas. - Incrustación de ilustraciones
Las imágenes o tablas de los libros escaneados se capturarán en pantalla y se incrustarán en Markdown. puede encontrarlas en la secciónimages
para encontrarlos.
consejo
- La calidad del escaneado del PDF debe ser clara, de lo contrario el reconocimiento puede ser erróneo.
- La primera ejecución descargará el modelo, después estará disponible sin conexión.
- Si va lento, prueba a acelerar la GPU o a reducir el número de páginas.
escenario de aplicación
- Organizar libros viejos
PDF Craft puede eliminar el desorden y producir archivos limpios. - Conversión de datos de investigación
Los académicos necesitan convertir documentos escaneados a Markdown para tomar notas. La herramienta conserva el texto y las ilustraciones para facilitar su citación. - Producción de libros electrónicos
Si desea convertir PDF escaneados en documentos Markdown editables, PDF Craft le ofrece soluciones sencillas.
CONTROL DE CALIDAD
- ¿Sólo permite escanear archivos PDF?
Principalmente optimizado para PDF de libros escaneados. Los PDF de texto normal funcionarán, pero probablemente no tan bien como los documentos escaneados. - ¿Qué hago con las imágenes después de la conversión?
La imagen se guarda como captura de pantalla en una carpeta especificada y el enlace se incrusta automáticamente en Markdown. - ¿Por qué es lenta la primera carrera?
Porque tienes que descargar el modelo de IA. Después se vuelve más rápido.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...