PengChengStarling: herramienta multilingüe de conversión de voz a texto más pequeña y rápida que Whisper-Large v3

Últimas herramientas de IAActualizado hace 6 meses Sharenet.ai

1K 0

Introducción general

PengChengStarling (PengCheng Labs) es una herramienta multilingüe de reconocimiento automático del habla (ASR) capaz de convertir el habla en distintos idiomas en el texto correspondiente. Este kit de herramientas se ha desarrollado a partir del proyecto icefall y ofrece un proceso completo de reconocimiento del habla que incluye el procesamiento de datos, el entrenamiento del modelo, la inferencia, el ajuste fino y la implantación. pengChengStarling admite el reconocimiento del habla en ocho idiomas, entre ellos chino, inglés, ruso, vietnamita, japonés, tailandés, indonesio y árabe. Sus principales escenarios de aplicación incluyen asistentes de voz, herramientas de traducción, generación de subtítulos y búsqueda por voz. El tamaño del modelo es 20% de Whisper-Large v3, y la velocidad de inferencia es 7 veces más rápida que Whisper-Large v3.

Sus características son que puede gestionar la entrada de voz multilingüe en un marco unificado, admite el reconocimiento de voz en tiempo real, el reconocimiento mientras se habla, puede utilizarse como grabación de conferencias internacionales a texto, vídeo multilingüe que genera subtítulos automáticamente, sistema de atención al cliente multilingüe.

PengChengStarling：对比Whisper-Large v3更小、更快的多语言语音转文字工具

Lista de funciones

Procesamiento de datos: admite el preprocesamiento de múltiples conjuntos de datos para generar el formato de entrada requerido.
Entrenamiento de modelos: ofrece configuraciones de entrenamiento flexibles para admitir tareas de reconocimiento multilingüe del habla.
Inferencia: velocidad de inferencia eficiente con soporte para el reconocimiento de voz en streaming.
Ajuste fino: permite ajustar los modelos para adaptarlos a los requisitos de tareas específicas.
Despliegue: proporciona modelos en formatos PyTorch y ONNX para facilitar el despliegue.

Utilizar la ayuda

Proceso de instalación

Almacén de proyectos de clonación:

   git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling

Instale la dependencia:

   pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH

Preparación de datos

Antes de iniciar el proceso de formación, es necesario preprocesar los datos brutos en el formato de entrada deseado. Normalmente, esto implica adaptar elzipformer/prepare.pyha dado en el clavomake_*_listpara generar eldata.listArchivo. Una vez completado, el script generará los correspondientes cortes y características fbank para cada conjunto de datos, que se utilizarán como datos de entrada para PengChengStarling.

formación de modelos

Configure los parámetros de entrenamiento: en la ventanaconfig_trainpara configurar los parámetros necesarios para la formación.
Iniciar la formación:

   ./train.sh

inferencia

Preparar los datos de inferencia: preprocesar los datos en el formato deseado.
Iniciar el razonamiento:

   ./eval.sh

ajuste fino

Preparar datos afinados: preprocesa los datos en el formato deseado.
Iniciar la puesta a punto:

   ./train.sh --finetune

despliegues

PengChengStarling proporciona modelos en dos formatos: diccionario de estados PyTorch y formato ONNX. Puede elegir el formato adecuado para el despliegue en función de sus necesidades.