Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz

Últimas herramientas de IAActualizado hace 4 meses Sharenet.ai

709 0

Introducción general

Open-VoiceCanvas es una plataforma de síntesis de voz de código abierto desarrollada por el equipo ItusiAI. Es compatible con más de 50 idiomas, convierte texto en habla natural y permite clonar una voz personalizada subiendo audio. El proyecto integra los servicios de voz OpenAI TTS, AWS Polly y MiniMax, y ofrece una amplia gama de opciones de timbre y ajuste de la velocidad del habla. El código 100% es de código abierto y está alojado en GitHub, donde los usuarios pueden descargarlo y modificarlo gratuitamente. También es compatible con los inicios de sesión de Google y GitHub, así como con los pagos de Stripe para desbloquear fácilmente las funciones avanzadas. Esta herramienta es adecuada para desarrolladores, creadores de contenidos y usuarios habituales.

Lista de funciones

Admite la conversión de texto a voz en más de 50 idiomas.
Ofrece diversos servicios de voz: OpenAI TTS (habla natural), AWS Polly (multilingüe), MiniMax (optimizado para chino).
Admite la selección de voz masculina y femenina con velocidad de voz ajustable.
Con la función de clonación de sonido, los usuarios pueden cargar audio para crear tonos personalizados.
Soporta carga de archivos de texto y descarga de archivos de audio, maneja textos largos sin presión.
Inicio de sesión integrado en Google y GitHub, interfaz multilingüe y temas claros y oscuros.
Los servicios de suscripción están disponibles a través de Stripe, incluyendo pruebas gratuitas, pagos mensuales/anuales y facturación por volumen.

Utilizar la ayuda

Open-VoiceCanvas es una potente herramienta de código abierto. Aquí tienes una guía detallada de instalación y uso que te ayudará a empezar rápidamente.

Proceso de instalación

Preparar el entorno
Antes de empezar, asegúrese de que las siguientes herramientas están instaladas en su ordenador:
- Git: para descargar código.
- Node.js (se recomienda 18.x o superior): ejecuta el front-end y el back-end.
- npm: Herramienta de gestión de paquetes para Node.js.
  Compruebe si está instalado:

git --version
node --version
npm --version

Si no lo tiene, puede ir al sitio web oficial para descargarlo e instalarlo.

Clonación de código
Abra un terminal e introduzca el siguiente comando para descargar el proyecto:

git clone https://github.com/ItusiAI/Open-VoiceCanvas.git

Vaya al catálogo de proyectos:

cd Open-VoiceCanvas

Instalación de dependencias
Ejecute el siguiente comando para instalar las bibliotecas necesarias:

npm install

Si la red es lenta, utiliza una réplica doméstica:

npm install --registry=https://registry.npmmirror.com

Configuración de variables de entorno
En el directorio raíz del proyecto, cree el archivo .env añada la siguiente configuración (debe sustituirla por su propia clave):

# OpenAI
OPENAI_API_KEY="your_openai_api_key"
# AWS Polly
NEXT_PUBLIC_AWS_REGION="us-east-1"
NEXT_PUBLIC_AWS_ACCESS_KEY_ID="your_aws_access_key_id"
NEXT_PUBLIC_AWS_SECRET_ACCESS_KEY="your_aws_secret_access_key"
# MiniMax
MINIMAX_API_KEY="your_minimax_api_key"
MINIMAX_GROUP_ID="your_minimax_group_id"
# 数据库
DATABASE_URL="your_neon_db_url"
# Stripe
STRIPE_SECRET_KEY="your_stripe_secret_key"
NEXT_PUBLIC_STRIPE_PUBLISHABLE_KEY="your_stripe_publishable_key"
STRIPE_WEBHOOK_SECRET="your_stripe_webhook_secret"
# NextAuth
NEXTAUTH_URL="http://localhost:3000"
NEXTAUTH_SECRET="your_nextauth_secret"
# OAuth
GITHUB_ID="your_github_client_id"
GITHUB_SECRET="your_github_client_secret"
GOOGLE_ID="your_google_client_id"
GOOGLE_SECRET="your_google_client_secret"

Estas claves deben obtenerse en los sitios web oficiales de los servicios correspondientes, como OpenAI, AWS, MiniMax, Neon, Stripe y GitHub/Google OAuth.

Ejecución de una migración de base de datos
Configure la base de datos y ejecútela:

npx prisma migrate dev

Esto inicializa la base de datos PostgreSQL.

procedimiento de activación
Introduzca el siguiente comando para iniciar el servidor de desarrollo:

npm run dev

Una vez iniciado, el navegador accede al http://localhost:3000Puedes ver la interfaz.

Funciones principales

texto a voz

Abra la página web, inicie sesión y vaya a la pantalla principal.
Introduzca texto en el cuadro de entrada de texto, por ejemplo: "Hola, es miércoles".
Selecciona el idioma (se admiten más de 50, como chino, inglés, japonés, etc.).
Elige un servicio de voz: OpenAI TTS, AWS Polly o MiniMax.
Elige un timbre (masculino o femenino, como "nova" de OpenAI o "Joanna" de AWS).
Ajuste la velocidad del habla (rango 0,5-2,0, 1,0 es normal).
Haz clic en "Generar" para previsualizar el audio en unos segundos.
Haga clic en "Descargar" para guardarlo como archivo MP3.

clonación de sonido

Vaya a la página "Clonación de sonido".
Haga clic en "Cargar audio" y seleccione un clip de audio claro de 10-20 segundos (formato WAV o MP3).
Introduzca el nombre del tono, por ejemplo "Mi voz".
Haz clic en "Clonar" y espera 1-2 minutos a que se complete el proceso.
Una vez clonado correctamente, el nuevo tono aparecerá en la lista de tonos.
Vuelva a la página Texto a voz, seleccione Clonar tono e introduzca el texto para generar el habla.

Tratamiento de documentos

Haga clic en "Cargar archivo de texto" en la pantalla principal.
Seleccione uno .txt el contenido se carga automáticamente en el cuadro de entrada.
Genera audio después de configurar el idioma, el timbre y la velocidad de voz.
El texto largo se segmenta automáticamente para garantizar una generación fluida.

Suscripción e inicio de sesión

Haz clic en "Iniciar sesión" en la esquina superior derecha y selecciona la autorización de la cuenta de Google o GitHub.
Inicia sesión para ver las cuotas de caracteres y los recuentos de clones.
Haga clic en "Suscribirse" y elija un plan de prueba gratuito, mensual (pago mensual) o anual (pago anual).
Introduce tus datos de pago a través de Stripe y desbloquea más funciones cuando completes tu suscripción.

advertencia

Requisitos de audioEl audio utilizado para la clonación debe ser claro y sin ruido de fondo.
clave de seguridadNo lo des. .env en el archivo.
requisitos de la red: Los modelos deben descargarse en la primera ejecución para mantener la estabilidad de la red.
Asistencia técnicaSi tiene algún problema, puede enviar una incidencia a GitHub.

Con estos pasos, podrás aprovechar al máximo las capacidades de Open-VoiceCanvas. Su diseño de código abierto también permite la personalización por parte de los desarrolladores, como añadir nuevos servicios de voz o modificar la interfaz.

escenario de aplicación

creación de contenidos
Los presentadores pueden utilizarlo para generar narraciones en varios idiomas y ahorrar tiempo de grabación.
Descripción del escenario: Un YouTuber genera comentarios de vídeo en chino e inglés, y descarga directamente el audio para editarlo.
Apoyo educativo
Los profesores convierten los libros de texto a voz para crear audio didáctico.
Descripción del escenario: Un profesor de inglés sube un texto y genera un audio de pronunciación americana para que los alumnos practiquen la escucha.
Aplicaciones personalizadas
Los desarrolladores clonan sus propias voces para crear asistentes de voz únicos.
Descripción del escenario: un programador clona una voz y la integra en un sistema doméstico inteligente para retransmitir el tiempo con su propia voz.
uso recreativo
Los usuarios generan voces divertidas para compartirlas con sus amigos.
Escenario: Alguien genera un audio de "Feliz Cumpleaños" con la voz de un amigo como regalo sorpresa.

CONTROL DE CALIDAD

¿Qué servicios de voz son compatibles?
Compatibilidad con OpenAI TTS (habla natural), AWS Polly (multilingüe) y MiniMax (optimizado para chino).
¿Qué hace falta para clonar una voz?
Necesitas 10-20 segundos de audio claro en formato WAV o MP3 con el menor ruido de fondo posible.
¿Cuál es la diferencia entre la versión gratuita y la de pago?
La versión gratuita tiene límites de caracteres y clones, la de pago ofrece más cuotas y opciones de tono.
¿Cómo solucionar un fallo de arranque?
Compruebe la versión de Node.js (se recomienda 18.x) para asegurarse de que las variables de entorno están configuradas correctamente y las dependencias están completamente instaladas.

El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.

XRAG: una herramienta de evaluación visual para optimizar los sistemas de generación de mejoras de la recuperación

Últimas herramientas de IA # AI Java Proyecto de código abierto # Recuperación de conocimientos y marco RAG

hace 6 meses

01.2K

Adam CAD: una herramienta inteligente para generar prototipos industriales CAD mediante IA

Últimas herramientas de IA # AI Texto e Imagen a 3D

hace 6 meses

02.1K

Promptimizer: una biblioteca experimental para la optimización de grandes modelos de palabras clave, que optimiza automáticamente Prompt

Últimas herramientas de IA # AI Java Proyecto de código abierto # PROMPTS Ayudas

hace 8 meses

01.4K

Rowboat - Framework de código abierto para el desarrollo de cuerpos inteligentes

Últimas herramientas de IA

hace 1 mes

0263

Sin comentarios

Sin comentarios...

Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Funciones principales

texto a voz

clonación de sonido

Tratamiento de documentos

Suscripción e inicio de sesión

advertencia

escenario de aplicación

CONTROL DE CALIDAD

Libra: un cliente para generar inteligencias IA locales con diálogo (prueba interna)

YOLOE: una herramienta de código abierto para la detección de vídeo en tiempo real y la segmentación de objetos

Artículos relacionados

XRAG: una herramienta de evaluación visual para optimizar los sistemas de generación de mejoras de la recuperación

Adam CAD: una herramienta inteligente para generar prototipos industriales CAD mediante IA

Promptimizer: una biblioteca experimental para la optimización de grandes modelos de palabras clave, que optimiza automáticamente Prompt

Rowboat - Framework de código abierto para el desarrollo de cuerpos inteligentes

Sin comentarios

Últimos artículos

Proyecto operativo de código abierto que integra múltiples servicios avanzados de síntesis de voz

Introducción general

Lista de funciones

Utilizar la ayuda

Proceso de instalación

Funciones principales

texto a voz

clonación de sonido

Tratamiento de documentos

Suscripción e inicio de sesión

advertencia

escenario de aplicación

CONTROL DE CALIDAD

Libra: un cliente para generar inteligencias IA locales con diálogo (prueba interna)

YOLOE: una herramienta de código abierto para la detección de vídeo en tiempo real y la segmentación de objetos

Artículos relacionados

XRAG: una herramienta de evaluación visual para optimizar los sistemas de generación de mejoras de la recuperación

Adam CAD: una herramienta inteligente para generar prototipos industriales CAD mediante IA

Promptimizer: una biblioteca experimental para la optimización de grandes modelos de palabras clave, que optimiza automáticamente Prompt

Rowboat - Framework de código abierto para el desarrollo de cuerpos inteligentes

Sin comentarios

Herramientas de IA seleccionadas

Últimos artículos