PDF2Audio : Outil de conversion de PDF en audio, PDF en Podcasting Guest

Derniers outils d'IAPosté il y a 9 mois Sharenet.ai

2.1K 0

Introduction générale

PDF2Audio est un projet open source conçu pour convertir des fichiers PDF en contenu audio tel que des podcasts, des conférences et des résumés. L'outil s'appuie sur le modèle GPT d'OpenAI pour la génération de texte et la conversion texte-parole, ce qui permet aux utilisateurs de télécharger plusieurs fichiers PDF, de sélectionner différents modèles d'instruction (podcasts, conférences, résumés, etc.) et de personnaliser la génération de texte et le modèle audio. pdf2Audio offre un large éventail d'options vocales et permet aux utilisateurs d'améliorer le contenu audio de manière itérative en éditant des brouillons et en fournissant un retour d'information.

Articles connexes recommandés :NotebookLM : Extraction de notes de connaissance, lecture, génération de documents multi-classes, dialogue vocal, podcasts

Liste des fonctions

Téléchargement de plusieurs fichiers PDF
Sélectionner différents modèles d'enseignement (podcasts, conférences, résumés, etc.)
Génération de textes personnalisés et modélisation audio
Sélectionner une autre voix
Améliorer de manière itérative le contenu audio en éditant les projets et en fournissant un retour d'information.
Soutien à l'installation et à l'utilisation locales

Interface PDF2Audio

L'interface de PDF2Audio est très simple, les étapes sont les suivantes :

1. télécharger un ou plusieurs fichiers PDF
2. sélectionner le modèle d'instruction souhaité

3. des modèles d'instructions personnalisés si nécessaire
4) Cliquez sur le bouton "Generate Audio" pour créer le contenu audio.

Utiliser l'aide

Expérience en ligne

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

Processus d'installation locale

entrepôt de clonesPour cloner le dépôt PDF2Audio, exécutez la commande suivante dans un terminal :
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
Installation de MinicondaSi Miniconda n'est pas déjà installé, téléchargez le programme d'installation à partir du site web de Miniconda et suivez les instructions d'installation correspondant à votre système d'exploitation. Vérifiez que l'installation s'est déroulée correctement :
```
conda --version
```
Créer un environnement CondaCréer un nouvel environnement Conda en exécutant la commande suivante dans un terminal :
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
Installation des dépendancesPour installer les dépendances nécessaires, exécutez la commande suivante dans un terminal :
```
pip install -r requirements.txt
```
Définir la clé API OpenAI: Créer un .env et ajoutez votre clé API OpenAI :
```
OPENAI_API_KEY=your_api_key_here
```

Processus d'utilisation

Exécution de l'applicationPour ce faire, vous devez vous assurer que vous êtes dans le répertoire du projet et que l'environnement Conda est activé :
```
conda activate pdf2audio
python app.py
```
Ouvrez votre navigateurURL : Une URL est fournie dans le terminal, généralement l'URL http://localhost:7860L'URL s'ouvrira dans votre navigateur.
Télécharger des fichiers PDFTélécharger un ou plusieurs fichiers PDF à l'aide de l'interface de Gradio.
Sélection d'un modèle de commandeSélectionnez le modèle d'instruction que vous souhaitez (par exemple, podcast, conférence, résumé, etc.).
Commandes personnaliséesLes instructions peuvent être personnalisées en fonction des besoins.
Générer de l'audioCliquez sur le bouton "Générer de l'audio" pour créer votre contenu audio.

mise en garde

L'application nécessite une clé API OpenAI pour fonctionner.
Vous pouvez améliorer le contenu audio de manière itérative en éditant des projets et en fournissant un retour d'information spécifique ou général.