PDF2Audio: herramienta de conversión de PDF a audio, PDF a podcasts

Últimas herramientas de IAPublicado hace 9 meses Sharenet.ai

2.1K 0

Introducción general

PDF2Audio es un proyecto de código abierto diseñado para convertir archivos PDF en contenidos de audio como podcasts, conferencias y resúmenes. La herramienta aprovecha el modelo GPT de OpenAI para la generación de texto y la conversión de texto a voz, lo que permite a los usuarios cargar varios archivos PDF, seleccionar diferentes plantillas de instrucciones (por ejemplo, podcasts, conferencias, resúmenes, etc.) y personalizar la generación de texto y el modelo de audio. pdf2Audio ofrece una amplia gama de opciones de voz y permite a los usuarios mejorar iterativamente el contenido de audio mediante la edición de borradores y la aportación de comentarios.

Lista de funciones

Cargar varios archivos PDF
Seleccione diferentes plantillas de instrucción (podcasts, conferencias, resúmenes, etc.)
Generación de texto y modelado de audio personalizados
Selecciona otra voz
Mejorar de forma iterativa el contenido de audio editando borradores y proporcionando comentarios.
Soporte para instalación y uso local

Interfaz PDF2Audio

La interfaz de PDF2Audio es muy sencilla, los pasos son los siguientes:

1. Cargar uno o varios archivos PDF
2. Seleccione la plantilla de instrucciones deseada

3. Plantillas de instrucciones personalizadas si es necesario
4. Haz clic en el botón "Generar audio" para crear el contenido de audio.

Utilizar la ayuda

Experiencia en línea

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

Proceso de instalación local

almacén de clonesEjecute el siguiente comando en un terminal para clonar el repositorio PDF2Audio:
```
git clone https://github.com/lamm-mit/PDF2Audio.git
cd PDF2Audio
```
Instalación de MinicondaSi Miniconda aún no está instalado, descargue el instalador del sitio web de Miniconda y siga las instrucciones de instalación correspondientes a su sistema operativo. Compruebe que la instalación se ha realizado correctamente:
```
conda --version
```
Creación de un entorno CondaCrea un nuevo entorno Conda ejecutando el siguiente comando en un terminal:
```
conda create -n pdf2audio python=3.9
conda activate pdf2audio
```
Instalación de dependenciasEjecute el siguiente comando en un terminal para instalar las dependencias necesarias:
```
pip install -r requirements.txt
```
Configuración de la clave de la API de OpenAI: Crear un .env y añade tu clave de API de OpenAI:
```
OPENAI_API_KEY=your_api_key_here
```

Proceso de utilización

Ejecutar la aplicaciónAsegúrate de que estás en el directorio del proyecto y de que el entorno Conda está activado:
```
conda activate pdf2audio
python app.py
```
Abra su navegador: Se proporciona una URL en el terminal, normalmente la http://localhost:7860La URL se abrirá en su navegador.
Cargar archivos PDFCarga uno o varios archivos PDF mediante la interfaz de Gradio.
Selección de una plantilla de comandos: Seleccione la plantilla de instrucción que desee (por ejemplo, podcast, conferencia, resumen, etc.).
Comandos personalizadosPersonaliza las instrucciones según tus necesidades.
Generar audioHaga clic en el botón "Generar audio" para crear su contenido de audio.

advertencia

La aplicación requiere una clave API de OpenAI para funcionar.
Puedes mejorar iterativamente los contenidos de audio editando borradores y aportando comentarios específicos o generales.