PengChengStarling: herramienta multilingüe de conversión de voz a texto más pequeña y rápida que Whisper-Large v3
Introducción general
PengChengStarling (PengCheng Labs) es una herramienta multilingüe de reconocimiento automático del habla (ASR) capaz de convertir el habla en distintos idiomas en el texto correspondiente. Este kit de herramientas se ha desarrollado a partir del proyecto icefall y ofrece un proceso completo de reconocimiento del habla que incluye el procesamiento de datos, el entrenamiento del modelo, la inferencia, el ajuste fino y la implantación. pengChengStarling admite el reconocimiento del habla en ocho idiomas, entre ellos chino, inglés, ruso, vietnamita, japonés, tailandés, indonesio y árabe. Sus principales escenarios de aplicación incluyen asistentes de voz, herramientas de traducción, generación de subtítulos y búsqueda por voz. El tamaño del modelo es 20% de Whisper-Large v3, y la velocidad de inferencia es 7 veces más rápida que Whisper-Large v3.
Sus características son que puede gestionar la entrada de voz multilingüe en un marco unificado, admite el reconocimiento de voz en tiempo real, el reconocimiento mientras se habla, puede utilizarse como grabación de conferencias internacionales a texto, vídeo multilingüe que genera subtítulos automáticamente, sistema de atención al cliente multilingüe.

Lista de funciones
- Procesamiento de datos: admite el preprocesamiento de múltiples conjuntos de datos para generar el formato de entrada requerido.
- Entrenamiento de modelos: ofrece configuraciones de entrenamiento flexibles para admitir tareas de reconocimiento multilingüe del habla.
- Inferencia: velocidad de inferencia eficiente con soporte para el reconocimiento de voz en streaming.
- Ajuste fino: permite ajustar los modelos para adaptarlos a los requisitos de tareas específicas.
- Despliegue: proporciona modelos en formatos PyTorch y ONNX para facilitar el despliegue.
Utilizar la ayuda
Proceso de instalación
- Almacén de proyectos de clonación:
git clone https://github.com/yangb05/PengChengStarling
cd PengChengStarling
- Instale la dependencia:
pip install -r requirements.txt
export PYTHONPATH=/tmp/PengChengStarling:$PYTHONPATH
Preparación de datos
Antes de iniciar el proceso de formación, es necesario preprocesar los datos brutos en el formato de entrada deseado. Normalmente, esto implica adaptar elzipformer/prepare.py
ha dado en el clavomake_*_list
para generar eldata.list
Archivo. Una vez completado, el script generará los correspondientes cortes y características fbank para cada conjunto de datos, que se utilizarán como datos de entrada para PengChengStarling.
formación de modelos
- Configure los parámetros de entrenamiento: en la ventana
config_train
para configurar los parámetros necesarios para la formación. - Iniciar la formación:
./train.sh
inferencia
- Preparar los datos de inferencia: preprocesar los datos en el formato deseado.
- Iniciar el razonamiento:
./eval.sh
ajuste fino
- Preparar datos afinados: preprocesa los datos en el formato deseado.
- Iniciar la puesta a punto:
./train.sh --finetune
despliegues
PengChengStarling proporciona modelos en dos formatos: diccionario de estados PyTorch y formato ONNX. Puede elegir el formato adecuado para el despliegue en función de sus necesidades.
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...