PDF2Audio: herramienta de conversión de PDF a audio, PDF a podcasts

Trae

Introducción general

PDF2Audio es un proyecto de código abierto diseñado para convertir archivos PDF en contenidos de audio como podcasts, conferencias y resúmenes. La herramienta aprovecha el modelo GPT de OpenAI para la generación de texto y la conversión de texto a voz, lo que permite a los usuarios cargar varios archivos PDF, seleccionar diferentes plantillas de instrucciones (por ejemplo, podcasts, conferencias, resúmenes, etc.) y personalizar la generación de texto y el modelo de audio. pdf2Audio ofrece una amplia gama de opciones de voz y permite a los usuarios mejorar iterativamente el contenido de audio mediante la edición de borradores y la aportación de comentarios.

Artículos relacionados recomendados:NotebookLM: Lectura de recuperación de notas de conocimiento, generación de documentos multiclase Podcasts de diálogo de voz

 

PDF2Audio:将PDF转换为音频的工具,PDF转播客

 

Lista de funciones

  • Cargar varios archivos PDF
  • Seleccione diferentes plantillas de instrucción (podcasts, conferencias, resúmenes, etc.)
  • Generación de texto y modelado de audio personalizados
  • Selecciona otra voz
  • Mejorar de forma iterativa el contenido de audio editando borradores y proporcionando comentarios.
  • Soporte para instalación y uso local

 

Interfaz PDF2Audio

La interfaz de PDF2Audio es muy sencilla, los pasos son los siguientes:

1. Cargar uno o varios archivos PDF
2. Seleccione la plantilla de instrucciones deseada

PDF2Audio:将PDF转换为音频的工具,PDF转播客

 

3. Plantillas de instrucciones personalizadas si es necesario
4. Haz clic en el botón "Generar audio" para crear el contenido de audio.

PDF2Audio:将PDF转换为音频的工具,PDF转播客

 

Utilizar la ayuda

Experiencia en línea

https://huggingface.co/spaces/lamm-mit/PDF2Audio

https://colab.research.google.com/github/lamm-mit/PDF2Audio/blob/main/PDF2Audio.ipynb

 

Proceso de instalación local

  1. almacén de clonesEjecute el siguiente comando en un terminal para clonar el repositorio PDF2Audio:
    git clone https://github.com/lamm-mit/PDF2Audio.git
    cd PDF2Audio
    
  2. Instalación de MinicondaSi Miniconda aún no está instalado, descargue el instalador del sitio web de Miniconda y siga las instrucciones de instalación correspondientes a su sistema operativo. Compruebe que la instalación se ha realizado correctamente:
    conda --version
    
  3. Creación de un entorno CondaCrea un nuevo entorno Conda ejecutando el siguiente comando en un terminal:
    conda create -n pdf2audio python=3.9
    conda activate pdf2audio
    
  4. Instalación de dependenciasEjecute el siguiente comando en un terminal para instalar las dependencias necesarias:
    pip install -r requirements.txt
    
  5. Configuración de la clave de la API de OpenAI: Crear un .env y añade tu clave de API de OpenAI:
    OPENAI_API_KEY=your_api_key_here
    

Proceso de utilización

  1. Ejecutar la aplicaciónAsegúrate de que estás en el directorio del proyecto y de que el entorno Conda está activado:
    conda activate pdf2audio
    python app.py
    
  2. Abra su navegador: Se proporciona una URL en el terminal, normalmente la http://localhost:7860La URL se abrirá en su navegador.
  3. Cargar archivos PDFCarga uno o varios archivos PDF mediante la interfaz de Gradio.
  4. Selección de una plantilla de comandos: Seleccione la plantilla de instrucción que desee (por ejemplo, podcast, conferencia, resumen, etc.).
  5. Comandos personalizadosPersonaliza las instrucciones según tus necesidades.
  6. Generar audioHaga clic en el botón "Generar audio" para crear su contenido de audio.

advertencia

  • La aplicación requiere una clave API de OpenAI para funcionar.
  • Puedes mejorar iterativamente los contenidos de audio editando borradores y aportando comentarios específicos o generales.
© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

ninguno
Sin comentarios...