L'IA lit les livres : l'IA lit les livres PDF page par page, extrait automatiquement les points clés de la connaissance et génère des résumés.

Derniers outils d'IAPosté il y a 7 mois Sharenet.ai

1.4K 0

Introduction générale

AI-reads-books-page-by-page est un outil intelligent d'analyse de livres PDF développé sur la base de Python, qui peut automatiser l'analyse page par page de livres PDF, extraire des points de connaissance clés et générer des résumés étape par étape après des intervalles de page spécifiés. Le projet utilise la technologie de l'intelligence artificielle pour parvenir à une compréhension intelligente du contenu et à la génération de résumés, ce qui peut aider les utilisateurs à saisir rapidement le contenu essentiel du livre. Le système dispose d'une fonction de filtrage intelligent, qui permet de sauter automatiquement les pages du catalogue et de l'index, et prend également en charge la poursuite des points d'arrêt, de sorte que le traitement peut être poursuivi à partir de la position de la dernière analyse. La sortie du projet adopte le format Markdown, qui est facile à lire et à partager, et prend en charge le stockage persistant de la base de connaissances pour garantir que les résultats de l'analyse ne seront pas perdus.

AI reads books：AI逐页阅读PDF书籍，自动提取知识要点并生成总结

Liste des fonctions

Automatisation de l'analyse des livres PDF et de l'extraction des connaissances
Compréhension du contenu et génération de résumés pilotés par l'IA
Résumés de l'état d'avancement des étapes par intervalles
Système de dépôt de base de connaissances persistantes
Résumé au format Markdown
Sortie du terminal en couleur pour une meilleure visibilité
Prise en charge de la lecture des points d'arrêt des bases de connaissances existantes
Intervalles d'analyse et modes de test configurables
Filtrage intelligent du contenu (suppression automatique de la table des matières, des pages d'index, etc.)
Gestion de la structure du catalogue des produits réglementés
Stockage de la base de connaissances au format JSON
Prise en charge de la sélection de modèles d'IA personnalisés

Utiliser l'aide

1. préparation à l'environnement

Tout d'abord, assurez-vous que l'environnement Python est installé sur votre système.

Clonage de projets au niveau local :

git clone https://github.com/echohive42/AI-reads-books-page-by-page
cd AI-reads-books-page-by-page

Installer les paquets de dépendances :
```
pip install -r requirements.txt
```

2. configuration de base

Les paramètres clés suivants doivent être configurés avant l'utilisation :

Placez le fichier PDF à analyser dans le répertoire racine du projet.
spectacle (un billet)read_books.pymodifiez la configuration suivante :
- PDF_NAME: Définissez le nom du fichier PDF comme étant le vôtre.
- ANALYSIS_INTERVALRéglage de l'intervalle d'analyse (nombre de pages)
- TEST_PAGESRéglage du nombre de pages de test (en option)
- MODELSélection de modèles d'intelligence artificielle pour le traitement des pages
- ANALYSIS_MODELSélection de modèles d'IA pour générer des analyses

3. description de la structure du catalogue

Le programme crée automatiquement la structure de répertoire suivante :

book_analysis/knowledge_bases/La base de connaissances : Stockage des fichiers de la base de connaissances au format JSON
book_analysis/summaries/Stockage des fichiers de synthèse au format Markdown
book_analysis/pdfs/Stockage de copies de fichiers PDF : Stockage de copies de fichiers PDF : Stockage de copies de fichiers PDF

4. exécuter le programme

python read_books.py

5. description de l'utilisation des fonctions avancées

Contrôle de l'analyse d'intervalle
- mettre en placeANALYSIS_INTERVAL = NoneRésumé des intervalles fermables
- La définition d'une valeur spécifique (par exemple 20) génère un résumé toutes les 20 pages traitées.
modèle de test
- mettre en placeTEST_PAGES = NoneManipulation de livres entiers
- La fixation d'un nombre spécifique de pages permet de réaliser des tests partiels.
reprendre la lecture après une pause
- Le programme enregistre automatiquement l'état d'avancement du traitement
- Lors du redémarrage du programme, celui-ci se poursuit à partir de la dernière position traitée.
Gestion des fichiers de sortie
- Les points de connaissance sont stockés dans des fichiers JSON
- Le document de synthèse est au format Markdown
- Les noms de fichiers incluent des horodatages pour le contrôle des versions
Analyses personnalisées
- Paramètres du modèle AI réglables
- Aide à la configuration de la profondeur et de la méthode d'analyse
- Format de sortie et emplacement de stockage personnalisables

6) Précautions

S'assurer que les fichiers PDF sont formatés correctement pour éviter le cryptage ou la corruption.
Il est recommandé de procéder à des essais à petite échelle lors du traitement de fichiers PDF volumineux.
Sauvegarde régulière des documents de la base de connaissances
Adaptation des intervalles d'analyse aux besoins réels
Surveiller l'utilisation des ressources du système