Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz

Últimas herramientas de IAActualizado hace 4 meses Sharenet.ai
709 0
吐司AI

Introducción general

Open-VoiceCanvas es una plataforma de síntesis de voz de código abierto desarrollada por el equipo ItusiAI. Es compatible con más de 50 idiomas, convierte texto en habla natural y permite clonar una voz personalizada subiendo audio. El proyecto integra los servicios de voz OpenAI TTS, AWS Polly y MiniMax, y ofrece una amplia gama de opciones de timbre y ajuste de la velocidad del habla. El código 100% es de código abierto y está alojado en GitHub, donde los usuarios pueden descargarlo y modificarlo gratuitamente. También es compatible con los inicios de sesión de Google y GitHub, así como con los pagos de Stripe para desbloquear fácilmente las funciones avanzadas. Esta herramienta es adecuada para desarrolladores, creadores de contenidos y usuarios habituales.

集成多种先进语音合成服务的开源运营项目

 

Lista de funciones

  • Admite la conversión de texto a voz en más de 50 idiomas.
  • Ofrece diversos servicios de voz: OpenAI TTS (habla natural), AWS Polly (multilingüe), MiniMax (optimizado para chino).
  • Admite la selección de voz masculina y femenina con velocidad de voz ajustable.
  • Con la función de clonación de sonido, los usuarios pueden cargar audio para crear tonos personalizados.
  • Soporta carga de archivos de texto y descarga de archivos de audio, maneja textos largos sin presión.
  • Inicio de sesión integrado en Google y GitHub, interfaz multilingüe y temas claros y oscuros.
  • Los servicios de suscripción están disponibles a través de Stripe, incluyendo pruebas gratuitas, pagos mensuales/anuales y facturación por volumen.

 

Utilizar la ayuda

Open-VoiceCanvas es una potente herramienta de código abierto. Aquí tienes una guía detallada de instalación y uso que te ayudará a empezar rápidamente.

Proceso de instalación

  1. Preparar el entorno
    Antes de empezar, asegúrese de que las siguientes herramientas están instaladas en su ordenador:

    • Git: para descargar código.
    • Node.js (se recomienda 18.x o superior): ejecuta el front-end y el back-end.
    • npm: Herramienta de gestión de paquetes para Node.js.
      Compruebe si está instalado:
git --version
node --version
npm --version

Si no lo tiene, puede ir al sitio web oficial para descargarlo e instalarlo.

  1. Clonación de código
    Abra un terminal e introduzca el siguiente comando para descargar el proyecto:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Vaya al catálogo de proyectos:

cd Open-VoiceCanvas
  1. Instalación de dependencias
    Ejecute el siguiente comando para instalar las bibliotecas necesarias:
npm install

Si la red es lenta, utiliza una réplica doméstica:

npm install --registry=https://registry.npmmirror.com
  1. Configuración de variables de entorno
    En el directorio raíz del proyecto, cree el archivo .env añada la siguiente configuración (debe sustituirla por su propia clave):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Estas claves deben obtenerse en los sitios web oficiales de los servicios correspondientes, como OpenAI, AWS, MiniMax, Neon, Stripe y GitHub/Google OAuth.

  1. Ejecución de una migración de base de datos
    Configure la base de datos y ejecútela:
npx prisma migrate dev

Esto inicializa la base de datos PostgreSQL.

  1. procedimiento de activación
    Introduzca el siguiente comando para iniciar el servidor de desarrollo:
npm run dev

Una vez iniciado, el navegador accede al http://localhost:3000Puedes ver la interfaz.

Funciones principales

texto a voz

  1. Abra la página web, inicie sesión y vaya a la pantalla principal.
  2. Introduzca texto en el cuadro de entrada de texto, por ejemplo: "Hola, es miércoles".
  3. Selecciona el idioma (se admiten más de 50, como chino, inglés, japonés, etc.).
  4. Elige un servicio de voz: OpenAI TTS, AWS Polly o MiniMax.
  5. Elige un timbre (masculino o femenino, como "nova" de OpenAI o "Joanna" de AWS).
  6. Ajuste la velocidad del habla (rango 0,5-2,0, 1,0 es normal).
  7. Haz clic en "Generar" para previsualizar el audio en unos segundos.
  8. Haga clic en "Descargar" para guardarlo como archivo MP3.

clonación de sonido

  1. Vaya a la página "Clonación de sonido".
  2. Haga clic en "Cargar audio" y seleccione un clip de audio claro de 10-20 segundos (formato WAV o MP3).
  3. Introduzca el nombre del tono, por ejemplo "Mi voz".
  4. Haz clic en "Clonar" y espera 1-2 minutos a que se complete el proceso.
  5. Una vez clonado correctamente, el nuevo tono aparecerá en la lista de tonos.
  6. Vuelva a la página Texto a voz, seleccione Clonar tono e introduzca el texto para generar el habla.

Tratamiento de documentos

  1. Haga clic en "Cargar archivo de texto" en la pantalla principal.
  2. Seleccione uno .txt el contenido se carga automáticamente en el cuadro de entrada.
  3. Genera audio después de configurar el idioma, el timbre y la velocidad de voz.
  4. El texto largo se segmenta automáticamente para garantizar una generación fluida.

Suscripción e inicio de sesión

  1. Haz clic en "Iniciar sesión" en la esquina superior derecha y selecciona la autorización de la cuenta de Google o GitHub.
  2. Inicia sesión para ver las cuotas de caracteres y los recuentos de clones.
  3. Haga clic en "Suscribirse" y elija un plan de prueba gratuito, mensual (pago mensual) o anual (pago anual).
  4. Introduce tus datos de pago a través de Stripe y desbloquea más funciones cuando completes tu suscripción.

advertencia

  • Requisitos de audioEl audio utilizado para la clonación debe ser claro y sin ruido de fondo.
  • clave de seguridadNo lo des. .env en el archivo.
  • requisitos de la red: Los modelos deben descargarse en la primera ejecución para mantener la estabilidad de la red.
  • Asistencia técnicaSi tiene algún problema, puede enviar una incidencia a GitHub.

Con estos pasos, podrás aprovechar al máximo las capacidades de Open-VoiceCanvas. Su diseño de código abierto también permite la personalización por parte de los desarrolladores, como añadir nuevos servicios de voz o modificar la interfaz.

 

escenario de aplicación

  1. creación de contenidos
    Los presentadores pueden utilizarlo para generar narraciones en varios idiomas y ahorrar tiempo de grabación.
    Descripción del escenario: Un YouTuber genera comentarios de vídeo en chino e inglés, y descarga directamente el audio para editarlo.
  2. Apoyo educativo
    Los profesores convierten los libros de texto a voz para crear audio didáctico.
    Descripción del escenario: Un profesor de inglés sube un texto y genera un audio de pronunciación americana para que los alumnos practiquen la escucha.
  3. Aplicaciones personalizadas
    Los desarrolladores clonan sus propias voces para crear asistentes de voz únicos.
    Descripción del escenario: un programador clona una voz y la integra en un sistema doméstico inteligente para retransmitir el tiempo con su propia voz.
  4. uso recreativo
    Los usuarios generan voces divertidas para compartirlas con sus amigos.
    Escenario: Alguien genera un audio de "Feliz Cumpleaños" con la voz de un amigo como regalo sorpresa.

 

CONTROL DE CALIDAD

  1. ¿Qué servicios de voz son compatibles?
    Compatibilidad con OpenAI TTS (habla natural), AWS Polly (multilingüe) y MiniMax (optimizado para chino).
  2. ¿Qué hace falta para clonar una voz?
    Necesitas 10-20 segundos de audio claro en formato WAV o MP3 con el menor ruido de fondo posible.
  3. ¿Cuál es la diferencia entre la versión gratuita y la de pago?
    La versión gratuita tiene límites de caracteres y clones, la de pago ofrece más cuotas y opciones de tono.
  4. ¿Cómo solucionar un fallo de arranque?
    Compruebe la versión de Node.js (se recomienda 18.x) para asegurarse de que las variables de entorno están configuradas correctamente y las dependencias están completamente instaladas.
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...