RealtimeSTT: herramienta de conversión de voz a texto en tiempo real para el reconocimiento del habla en streaming de baja latencia basada en Whisper.

Noticias AIActualizado hace 6 meses Sharenet.ai
1.4K 0
吐司AI

Introducción general

RealtimeSTT es una eficaz biblioteca de conversión de voz a texto en tiempo real de baja latencia con detección avanzada de la actividad del habla y activación de palabras de despertador. Ha sido desarrollada por Kolja Beigel para aplicaciones que requieren una transcripción de voz a texto rápida y precisa. Tanto si se trata de un asistente de voz como de una aplicación que requiera una transcripción de voz precisa, RealtimeSTT ofrece un excelente rendimiento y facilidad de uso.

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

 

Lista de funciones

  • Voz a texto en tiempo real: transcribe voz a texto en tiempo real para una gran variedad de escenarios de aplicación.
  • Detección de la actividad del habla: detecta automáticamente cuándo un usuario empieza y deja de hablar, lo que mejora la precisión de la transcripción.
  • Activación por palabra despertador: Soporta la función de palabra despertador, los usuarios pueden activar el sistema mediante palabras específicas.
  • Baja latencia: Garantice una baja latencia en el proceso de voz a texto para mejorar la experiencia del usuario.
  • Compatibilidad multiplataforma: Compatible con múltiples sistemas operativos y plataformas para facilitar la integración.
  • Código fuente abierto: proporcione un código fuente abierto completo para que los desarrolladores puedan llevar a cabo el desarrollo secundario y la personalización.

 

Utilizar la ayuda

Proceso de instalación

  1. Almacén de proyectos de clonación:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Vaya al catálogo de proyectos:
   cd RealtimeSTT
  1. Instale la dependencia:
   pip install -r requirements.txt
  1. (Opcional) Instale el soporte GPU:
   pip install -r requirements-gpu.txt

Utilización

Iniciar el servidor

  1. Inicie el servidor de voz a texto:
   stt-server
  1. Una vez iniciado el servidor, espere a que aparezca el mensaje "hable ahora".

Uso del cliente

  1. Inicie el cliente y conéctese al servidor:
   stt
  1. Una vez iniciado el cliente, empieza a hablar y el sistema transcribirá la voz a texto en tiempo real.

Funciones principales

conversión de voz a texto en tiempo real

  1. importar (datos) AudioToTextRecorder Clase:
   from RealtimeSTT import AudioToTextRecorder
  1. Define funciones que procesan texto:
   def process_text(text):
print(text)
  1. Inicia la grabación y procesa el texto:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Detección de actividad vocal

  1. El sistema detecta automáticamente cuándo el usuario empieza y deja de hablar, sin necesidad de configuración adicional.

activación del despertador

  1. Configure la función de palabra despertador, los usuarios pueden activar el sistema mediante palabras específicas, por favor consulte la documentación del proyecto para la configuración específica.

Ejemplo detallado de funcionamiento

Escriba todo lo que se dice

  1. importar (datos) AudioToTextRecorder responder cantando pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. Define funciones que procesan texto:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Inicia la grabación y procesa el texto:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...