Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz
Introducción general
Open-VoiceCanvas es una plataforma de síntesis de voz de código abierto desarrollada por el equipo ItusiAI. Es compatible con más de 50 idiomas, convierte texto en habla natural y permite clonar una voz personalizada subiendo audio. El proyecto integra los servicios de voz OpenAI TTS, AWS Polly y MiniMax, y ofrece una amplia gama de opciones de timbre y ajuste de la velocidad del habla. El código 100% es de código abierto y está alojado en GitHub, donde los usuarios pueden descargarlo y modificarlo gratuitamente. También es compatible con los inicios de sesión de Google y GitHub, así como con los pagos de Stripe para desbloquear fácilmente las funciones avanzadas. Esta herramienta es adecuada para desarrolladores, creadores de contenidos y usuarios habituales.

Lista de funciones
- Admite la conversión de texto a voz en más de 50 idiomas.
- Ofrece diversos servicios de voz: OpenAI TTS (habla natural), AWS Polly (multilingüe), MiniMax (optimizado para chino).
- Admite la selección de voz masculina y femenina con velocidad de voz ajustable.
- Con la función de clonación de sonido, los usuarios pueden cargar audio para crear tonos personalizados.
- Soporta carga de archivos de texto y descarga de archivos de audio, maneja textos largos sin presión.
- Inicio de sesión integrado en Google y GitHub, interfaz multilingüe y temas claros y oscuros.
- Los servicios de suscripción están disponibles a través de Stripe, incluyendo pruebas gratuitas, pagos mensuales/anuales y facturación por volumen.
Utilizar la ayuda
Open-VoiceCanvas es una potente herramienta de código abierto. Aquí tienes una guía detallada de instalación y uso que te ayudará a empezar rápidamente.
Proceso de instalación
- Preparar el entorno
Antes de empezar, asegúrese de que las siguientes herramientas están instaladas en su ordenador:- Git: para descargar código.
- Node.js (se recomienda 18.x o superior): ejecuta el front-end y el back-end.
- npm: Herramienta de gestión de paquetes para Node.js.
Compruebe si está instalado:
git --version
node --version
npm --version
Si no lo tiene, puede ir al sitio web oficial para descargarlo e instalarlo.
- Clonación de código
Abra un terminal e introduzca el siguiente comando para descargar el proyecto:
git clone https://github.com/ItusiAI/Open-VoiceCanvas.git
Vaya al catálogo de proyectos:
cd Open-VoiceCanvas
- Instalación de dependencias
Ejecute el siguiente comando para instalar las bibliotecas necesarias:
npm install
Si la red es lenta, utiliza una réplica doméstica:
npm install --registry=https://registry.npmmirror.com
- Configuración de variables de entorno
En el directorio raíz del proyecto, cree el archivo.env
añada la siguiente configuración (debe sustituirla por su propia clave):
# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"
Estas claves deben obtenerse en los sitios web oficiales de los servicios correspondientes, como OpenAI, AWS, MiniMax, Neon, Stripe y GitHub/Google OAuth.
- Ejecución de una migración de base de datos
Configure la base de datos y ejecútela:
npx prisma migrate dev
Esto inicializa la base de datos PostgreSQL.
- procedimiento de activación
Introduzca el siguiente comando para iniciar el servidor de desarrollo:
npm run dev
Una vez iniciado, el navegador accede al http://localhost:3000
Puedes ver la interfaz.
Funciones principales
texto a voz
- Abra la página web, inicie sesión y vaya a la pantalla principal.
- Introduzca texto en el cuadro de entrada de texto, por ejemplo: "Hola, es miércoles".
- Selecciona el idioma (se admiten más de 50, como chino, inglés, japonés, etc.).
- Elige un servicio de voz: OpenAI TTS, AWS Polly o MiniMax.
- Elige un timbre (masculino o femenino, como "nova" de OpenAI o "Joanna" de AWS).
- Ajuste la velocidad del habla (rango 0,5-2,0, 1,0 es normal).
- Haz clic en "Generar" para previsualizar el audio en unos segundos.
- Haga clic en "Descargar" para guardarlo como archivo MP3.
clonación de sonido
- Vaya a la página "Clonación de sonido".
- Haga clic en "Cargar audio" y seleccione un clip de audio claro de 10-20 segundos (formato WAV o MP3).
- Introduzca el nombre del tono, por ejemplo "Mi voz".
- Haz clic en "Clonar" y espera 1-2 minutos a que se complete el proceso.
- Una vez clonado correctamente, el nuevo tono aparecerá en la lista de tonos.
- Vuelva a la página Texto a voz, seleccione Clonar tono e introduzca el texto para generar el habla.
Tratamiento de documentos
- Haga clic en "Cargar archivo de texto" en la pantalla principal.
- Seleccione uno
.txt
el contenido se carga automáticamente en el cuadro de entrada. - Genera audio después de configurar el idioma, el timbre y la velocidad de voz.
- El texto largo se segmenta automáticamente para garantizar una generación fluida.
Suscripción e inicio de sesión
- Haz clic en "Iniciar sesión" en la esquina superior derecha y selecciona la autorización de la cuenta de Google o GitHub.
- Inicia sesión para ver las cuotas de caracteres y los recuentos de clones.
- Haga clic en "Suscribirse" y elija un plan de prueba gratuito, mensual (pago mensual) o anual (pago anual).
- Introduce tus datos de pago a través de Stripe y desbloquea más funciones cuando completes tu suscripción.
advertencia
- Requisitos de audioEl audio utilizado para la clonación debe ser claro y sin ruido de fondo.
- clave de seguridadNo lo des.
.env
en el archivo. - requisitos de la red: Los modelos deben descargarse en la primera ejecución para mantener la estabilidad de la red.
- Asistencia técnicaSi tiene algún problema, puede enviar una incidencia a GitHub.
Con estos pasos, podrás aprovechar al máximo las capacidades de Open-VoiceCanvas. Su diseño de código abierto también permite la personalización por parte de los desarrolladores, como añadir nuevos servicios de voz o modificar la interfaz.
escenario de aplicación
- creación de contenidos
Los presentadores pueden utilizarlo para generar narraciones en varios idiomas y ahorrar tiempo de grabación.
Descripción del escenario: Un YouTuber genera comentarios de vídeo en chino e inglés, y descarga directamente el audio para editarlo. - Apoyo educativo
Los profesores convierten los libros de texto a voz para crear audio didáctico.
Descripción del escenario: Un profesor de inglés sube un texto y genera un audio de pronunciación americana para que los alumnos practiquen la escucha. - Aplicaciones personalizadas
Los desarrolladores clonan sus propias voces para crear asistentes de voz únicos.
Descripción del escenario: un programador clona una voz y la integra en un sistema doméstico inteligente para retransmitir el tiempo con su propia voz. - uso recreativo
Los usuarios generan voces divertidas para compartirlas con sus amigos.
Escenario: Alguien genera un audio de "Feliz Cumpleaños" con la voz de un amigo como regalo sorpresa.
CONTROL DE CALIDAD
- ¿Qué servicios de voz son compatibles?
Compatibilidad con OpenAI TTS (habla natural), AWS Polly (multilingüe) y MiniMax (optimizado para chino). - ¿Qué hace falta para clonar una voz?
Necesitas 10-20 segundos de audio claro en formato WAV o MP3 con el menor ruido de fondo posible. - ¿Cuál es la diferencia entre la versión gratuita y la de pago?
La versión gratuita tiene límites de caracteres y clones, la de pago ofrece más cuotas y opciones de tono. - ¿Cómo solucionar un fallo de arranque?
Compruebe la versión de Node.js (se recomienda 18.x) para asegurarse de que las variables de entorno están configuradas correctamente y las dependencias están completamente instaladas.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...