Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Derniers outils d'IAPosté il y a 6 mois Sharenet.ai
1.3K 0
吐司AI

Introduction générale

Bailing est un assistant de dialogue vocal open-source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modèle de langage étendu (LLM) et de synthèse vocale (TTS) pour mettre en œuvre un robot de dialogue vocal de type GPT-4o. Avec une latence de bout en bout aussi faible que 800 ms, BaiLing convient à un large éventail d'appareils périphériques et d'environnements à faibles ressources. Son modèle open-source efficace et sa conception modulaire lui permettent de fonctionner sans GPU, offrant ainsi une expérience de dialogue vocal de haute qualité. Grâce à des fonctionnalités telles que la fonction mémoire, l'invocation d'outils et la gestion des tâches, Biolabs se souvient des préférences de l'utilisateur et de l'historique des conversations pour offrir une expérience interactive personnalisée.

百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

 

Liste des fonctions

  • Saisie vocale : reconnaissance vocale précise grâce à FunASR.
  • Détection de l'activité vocale : filtrage de l'audio non valide à l'aide de silero-vad pour améliorer l'efficacité de la reconnaissance.
  • Génération intelligente de dialogues : s'appuyer sur recherche approfondie La puissante compréhension du langage permet de générer des réponses textuelles naturelles.
  • Sortie vocale : convertit le texte en parole via edge-tts, offrant aux utilisateurs un retour d'information auditif réaliste.
  • Prise en charge des interruptions : la configuration flexible des politiques d'interruption, avec la possibilité d'identifier les mots-clés et les interruptions vocales, garantit un retour d'information et un contrôle immédiats de la part de l'utilisateur dans le dialogue.
  • Support de mémoire : capacité d'apprentissage continu pour mémoriser les préférences de l'utilisateur et l'historique des conversations afin de fournir une expérience interactive personnalisée.
  • Prise en charge de l'invocation d'outils : l'intégration flexible d'outils externes permet aux utilisateurs de demander des informations ou d'effectuer des actions directement par la voix.
  • Prise en charge de la gestion des tâches : gérez efficacement les tâches des utilisateurs grâce à la possibilité de suivre la progression, de fixer des rappels et de fournir des mises à jour dynamiques.

 

Utiliser l'aide

Installation et fonctionnement

Environnement dépendant

Assurez-vous que les outils et bibliothèques suivants sont installés dans votre environnement de développement :

  • Python 3.8 ou supérieur
  • gestionnaire de paquets pip
  • Dépendances requises pour FunASR, silero-vad, deepseek, edge-tts

Étapes de l'installation

  1. Clonage de l'entrepôt de projets :
   git clone https://github.com/wwbin2017/bailing.git
cd bailing
  1. Installer les dépendances nécessaires :
   pip install -r requirements.txt
  1. Configurer les variables d'environnement : Ouvrir config/config.yaml Configurer ASR, LLM et autres configurations connexes. Télécharger SenseVoiceSmall au catalogue models/SenseVoiceSmallLa clé API de deepseek est utilisée pour configurer le modèle. Obtenez la clé API de deepseek et configurez-le, bien sûr, vous pouvez également configurer d'autres modèles tels que openai, qwen, gemini, 01yi, et ainsi de suite.
  2. Exécuter le projet :
   cd server
python server.py  # 启动后端服务,也可不执行这一步
python main.py

Mode d'emploi

Après avoir lancé l'application, le système attend la saisie vocale. Voici la procédure d'utilisation détaillée :

  1. Convertir la parole de l'utilisateur en texte avec FunASR.
  2. Utilisez silero-vad pour la détection de l'activité vocale afin de vous assurer que seule la parole valide est traitée.
  3. deepseek traite les entrées de texte et génère des réponses intelligentes.
  4. edge-tts, ChatTTS, macOS say convertit le texte généré en parole et le restitue à l'utilisateur.

Fonction Opération Déroulement

  • saisie vocaleReconnaissance vocale : L'utilisateur saisit sa voix par l'intermédiaire du microphone et le système procède automatiquement à la reconnaissance vocale.
  • Détection de l'activité vocaleLe système filtre automatiquement les données audio non valides afin de garantir l'efficacité de la reconnaissance.
  • Génération intelligente de dialoguesLe système génère des réponses textuelles naturelles sur la base des données fournies par l'utilisateur.
  • sortie vocaleLe système convertit les réponses textuelles en paroles et les restitue à l'utilisateur.
  • Soutien aux interruptionsL'utilisateur peut interrompre le dialogue en cours par la voix et le système répondra instantanément.
  • fonction mémoireLe système mémorise les préférences de l'utilisateur et l'historique de ses conversations afin de lui offrir une expérience interactive personnalisée.
  • Appel d'outilLes utilisateurs peuvent demander des informations ou effectuer des actions par la voix, et le système intègre de manière flexible des outils externes.
  • gestion des tâchesLes utilisateurs peuvent définir des rappels de tâches et le système gérera efficacement l'avancement des tâches et fournira des mises à jour dynamiques.

opération d'échantillonnage

  • Obtenir des informations météorologiquesL'utilisateur demande : "Quel temps fait-il à Hangzhou ?" Le système renvoie les conditions météorologiques à Hangzhou.
  • Création de tâches chronométréesL'utilisateur dit : "Rappelez-moi de boire de l'eau tous les matins à 8 heures". Le système fixe une heure de rappel.

Grâce à l'aide à l'utilisation détaillée ci-dessus, les utilisateurs peuvent facilement commencer à utiliser BaiLing et profiter d'une expérience de dialogue vocal efficace.

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...