MarkPDFDown : convertir des PDF en Markdown sur la base d'un modèle multimodal

Derniers outils d'IAPosté il y a 4 mois Sharenet.ai

905 0

Introduction générale

MarkPDFDown est un outil open source. Il utilise le modèle multimodal du grand langage pour convertir les fichiers PDF au format Markdown. Le développeur est l'utilisateur GitHub jorben. L'objectif de cet outil est simple : rendre les documents PDF plus faciles à éditer et à partager. Il reconnaît les titres, les listes, les tableaux et autres structures d'un document et produit un fichier Markdown bien formaté. Le projet est écrit en Python et convient aux utilisateurs qui ont besoin de traiter des fichiers PDF et de les convertir au format texte. La version actuelle doit s'appuyer sur l'API d'OpenAI, les utilisateurs doivent préparer leur propre clé API. markPDFDown est un code source ouvert sur GitHub, nous vous invitons à participer à son amélioration.

Liste des fonctions

Convertissez des fichiers PDF au format Markdown, en préservant la structure du document.
Aide à la reconnaissance des titres, paragraphes, listes, tableaux et autres éléments.
La compréhension du contenu des PDF par le biais d'un macromodèle multimodal permet d'obtenir des résultats de conversion précis.
Fournir des opérations en ligne de commande, prendre en charge le traitement par lots des fichiers PDF.
Open source et gratuit, les utilisateurs peuvent personnaliser le code.

Utiliser l'aide

MarkPDFDown est un outil de ligne de commande qui nécessite l'installation et la configuration de l'environnement sur votre ordinateur pour pouvoir être utilisé. Vous trouverez ci-dessous les étapes détaillées de l'installation et de l'utilisation. Les utilisateurs novices peuvent également démarrer facilement.

Processus d'installation

Préparation de l'environnement
Vous aurez besoin d'un ordinateur équipé de Python 3.9. Si ce n'est pas le cas, téléchargez et installez d'abord Python.
Ouvrez un terminal et entrez la commande suivante pour créer un environnement virtuel :

conda create -n markpdfdown python=3.9

Activez ensuite l'environnement :

conda activate markpdfdown

Télécharger le code
Clonez le dépôt GitHub de MarkPDFDown en tapant la commande dans le terminal :

git clone https://github.com/jorben/markpdfdown.git

Allez dans le dossier du projet :

cd markpdfdown

Installation des dépendances
Le projet nécessite la prise en charge de certaines bibliothèques Python. Exécutez la commande suivante pour les installer :

pip install -r requirements.txt

Configuration des clés API
MarkPDFDown utilise le modèle multimodal d'OpenAI et nécessite une clé API. Rendez-vous d'abord sur le site web d'OpenAI pour créer un compte et obtenir la clé.
Placer la clé dans le terminal :

export OPENAI_API_KEY=<你的API密钥>

Si vous souhaitez changer de modèle ou d'adresse API, vous pouvez le faire à nouveau :

export OPENAI_DEFAULT_MODEL=<你的模型名>
export OPENAI_API_BASE=<你的API地址>

Vérifier l'installation
importation python main.py --helpSi un message d'aide s'affiche, l'installation a réussi.

Comment l'utiliser

Une fois installé, le fonctionnement de MarkPDFDown est très simple, principalement via la ligne de commande. Les étapes spécifiques sont les suivantes.

Convertir des fichiers PDF entiers

Supposons que vous ayez un fichier PDF du type tests/input.pdfSi vous souhaitez le convertir en fichier Markdown output.md. Tapez dans le terminal :

python main.py < tests/input.pdf > output.md

Après avoir exécuté leoutput.md Il apparaîtra dans le dossier actuel avec le contenu Markdown converti.

Convertir des pages spécifiques d'un PDF

Si vous souhaitez ne convertir que certaines pages, par exemple les pages 2 à 5, entrez :

python main.py 2 5 < tests/input.pdf > output.md

Le premier numéro correspond à la page de début et le second à la page de fin. Les numéros de page sont comptés à partir de 1.

Fonctionnement avec Docker

Vous ne voulez pas installer un environnement Python ? Assurez-vous d'avoir Docker sur votre ordinateur et lancez-le :

docker run -i -e OPENAI_API_KEY=<你的API密钥> jorben/markpdfdown < tests/input.pdf > output.md

Cela permet de convertir le fichier directement via le conteneur Docker.

Fonctions

Fonctions principales : PDF to Markdown
Faites glisser le fichier PDF dans la fenêtre de la ligne de commande, ou entrez directement le chemin d'accès au fichier, l'outil analysera automatiquement le contenu. Le titre deviendra #,## etc., la liste est composée de - est représenté par le tableau, et le tableau est édité au format Markdown.
Par exemple, un PDF avec le titre "Introduction" et le corps "Voici le contenu" peut être converti :

# 简介
这是内容

fichier de lot
S'il y a beaucoup de fichiers PDF, vous pouvez écrire un script pour appeler la commande en boucle. Par exemple, sous Linux :

for file in *.pdf; do python main.py < "$file" > "${file%.pdf}.md"; done

Débogage et amélioration
Les résultats de la conversion ne sont pas satisfaisants ? Posez une question sur GitHub ou modifiez le code vous-même. Le projet est écrit en Python, et toute la logique se trouve dans la section main.py Mile.

mise en garde

Le chemin d'accès au fichier ne doit pas comporter de caractères chinois, sinon une erreur peut être signalée.
La clé API doit être gardée secrète et ne doit pas être divulguée à d'autres personnes.
Le traitement des fichiers volumineux peut prendre plus de temps, ce qui garantit la stabilité du réseau.

scénario d'application

recherche universitaire
Les étudiants ou les chercheurs ont souvent besoin de convertir le PDF de leur thèse en Markdown pour faciliter la prise de notes ou le partage. MarkPDFDown préserve la structure de la thèse, comme les titres et les tableaux, pour une édition directe en Markdown.
Documentation
Les entreprises disposent d'un grand nombre d'instructions ou de rapports PDF qu'elles souhaitent convertir en archives Markdown. Vous pouvez utiliser cet outil pour les convertir par lots et les télécharger ensuite sur GitHub ou Notion.
Rédaction technique
Lorsque vous rédigez des blogs techniques, vous devez citer des documents PDF. Convertissez-les directement et collez-les dans votre éditeur Markdown, ce qui vous évitera d'avoir à les trier manuellement.

QA

Dois-je travailler en réseau ?
Oui. L'outil repose sur l'API d'OpenAI et doit être connecté à un réseau pour fonctionner.
Prend-il en charge les PDF chinois ?
Prise en charge. Tant que le PDF est au format texte (et non une image numérisée), le contenu chinois peut être converti correctement.
Que se passe-t-il en cas d'erreur de conversion ?
Vérifiez si la clé API est correcte ou si le fichier PDF est corrompu. Si cela ne fonctionne pas, allez sur GitHub et posez un problème.
Puis-je l'utiliser hors ligne ?
Pas pour l'instant. Les modèles locaux pourront être pris en charge à l'avenir, mais pour l'instant, il faudra s'en remettre au service d'OpenAI.