Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Derniers outils d'IAPosté il y a 6 mois Sharenet.ai

1.3K 0

Introduction générale

Bailing est un assistant de dialogue vocal open-source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modèle de langage étendu (LLM) et de synthèse vocale (TTS) pour mettre en œuvre un robot de dialogue vocal de type GPT-4o. Avec une latence de bout en bout aussi faible que 800 ms, BaiLing convient à un large éventail d'appareils périphériques et d'environnements à faibles ressources. Son modèle open-source efficace et sa conception modulaire lui permettent de fonctionner sans GPU, offrant ainsi une expérience de dialogue vocal de haute qualité. Grâce à des fonctionnalités telles que la fonction mémoire, l'invocation d'outils et la gestion des tâches, Biolabs se souvient des préférences de l'utilisateur et de l'historique des conversations pour offrir une expérience interactive personnalisée.

Liste des fonctions

Saisie vocale : reconnaissance vocale précise grâce à FunASR.
Détection de l'activité vocale : filtrage de l'audio non valide à l'aide de silero-vad pour améliorer l'efficacité de la reconnaissance.
Génération intelligente de dialogues : s'appuyer sur recherche approfondie La puissante compréhension du langage permet de générer des réponses textuelles naturelles.
Sortie vocale : convertit le texte en parole via edge-tts, offrant aux utilisateurs un retour d'information auditif réaliste.
Prise en charge des interruptions : la configuration flexible des politiques d'interruption, avec la possibilité d'identifier les mots-clés et les interruptions vocales, garantit un retour d'information et un contrôle immédiats de la part de l'utilisateur dans le dialogue.
Support de mémoire : capacité d'apprentissage continu pour mémoriser les préférences de l'utilisateur et l'historique des conversations afin de fournir une expérience interactive personnalisée.
Prise en charge de l'invocation d'outils : l'intégration flexible d'outils externes permet aux utilisateurs de demander des informations ou d'effectuer des actions directement par la voix.
Prise en charge de la gestion des tâches : gérez efficacement les tâches des utilisateurs grâce à la possibilité de suivre la progression, de fixer des rappels et de fournir des mises à jour dynamiques.

Utiliser l'aide

Installation et fonctionnement

Environnement dépendant

Assurez-vous que les outils et bibliothèques suivants sont installés dans votre environnement de développement :

Python 3.8 ou supérieur
gestionnaire de paquets pip
Dépendances requises pour FunASR, silero-vad, deepseek, edge-tts

Étapes de l'installation

Clonage de l'entrepôt de projets :

   git clone https://github.com/wwbin2017/bailing.git
cd bailing

Installer les dépendances nécessaires :

   pip install -r requirements.txt

Configurer les variables d'environnement : Ouvrir config/config.yaml Configurer ASR, LLM et autres configurations connexes. Télécharger SenseVoiceSmall au catalogue models/SenseVoiceSmallLa clé API de deepseek est utilisée pour configurer le modèle. Obtenez la clé API de deepseek et configurez-le, bien sûr, vous pouvez également configurer d'autres modèles tels que openai, qwen, gemini, 01yi, et ainsi de suite.
Exécuter le projet :

   cd server
python server.py  # 启动后端服务，也可不执行这一步
python main.py

Mode d'emploi

Après avoir lancé l'application, le système attend la saisie vocale. Voici la procédure d'utilisation détaillée :

Convertir la parole de l'utilisateur en texte avec FunASR.
Utilisez silero-vad pour la détection de l'activité vocale afin de vous assurer que seule la parole valide est traitée.
deepseek traite les entrées de texte et génère des réponses intelligentes.
edge-tts, ChatTTS, macOS say convertit le texte généré en parole et le restitue à l'utilisateur.

Fonction Opération Déroulement

saisie vocaleReconnaissance vocale : L'utilisateur saisit sa voix par l'intermédiaire du microphone et le système procède automatiquement à la reconnaissance vocale.
Détection de l'activité vocaleLe système filtre automatiquement les données audio non valides afin de garantir l'efficacité de la reconnaissance.
Génération intelligente de dialoguesLe système génère des réponses textuelles naturelles sur la base des données fournies par l'utilisateur.
sortie vocaleLe système convertit les réponses textuelles en paroles et les restitue à l'utilisateur.
Soutien aux interruptionsL'utilisateur peut interrompre le dialogue en cours par la voix et le système répondra instantanément.
fonction mémoireLe système mémorise les préférences de l'utilisateur et l'historique de ses conversations afin de lui offrir une expérience interactive personnalisée.
Appel d'outilLes utilisateurs peuvent demander des informations ou effectuer des actions par la voix, et le système intègre de manière flexible des outils externes.
gestion des tâchesLes utilisateurs peuvent définir des rappels de tâches et le système gérera efficacement l'avancement des tâches et fournira des mises à jour dynamiques.

opération d'échantillonnage

Obtenir des informations météorologiquesL'utilisateur demande : "Quel temps fait-il à Hangzhou ?" Le système renvoie les conditions météorologiques à Hangzhou.
Création de tâches chronométréesL'utilisateur dit : "Rappelez-moi de boire de l'eau tous les matins à 8 heures". Le système fixe une heure de rappel.

Grâce à l'aide à l'utilisation détaillée ci-dessus, les utilisateurs peuvent facilement commencer à utiliser BaiLing et profiter d'une expérience de dialogue vocal efficace.

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.

Articles connexes

méso (chimie)EXAONE 4.0 - LG推出的混合推理模型

Derniers outils d'IA

7小时前

066

Simba : un système de gestion des connaissances pour l'organisation des documents, intégré de manière transparente dans tout système RAG.

Derniers outils d'IA # AI Java Open Source Projecct # Recherche de connaissances et cadre RAG

il y a 5 mois

0994

OpenAvatarChat : un outil de dialogue humain numérique conçu de manière modulaire

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 3 mois

0642

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

Derniers outils d'IA # AI Page Design

Il y a 4 mois

0975

Pas de commentaires

Pas de commentaires...

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction générale

Liste des fonctions

Utiliser l'aide

Installation et fonctionnement

Environnement dépendant

Étapes de l'installation

Mode d'emploi

Fonction Opération Déroulement

opération d'échantillonnage

Metaverse AI : Version Open Source de l'outil de clonage humain numérique et de génération de courtes vidéos par l'IA

Omni-RGPT : un grand modèle multimodal pour la compréhension des régions d'images et de vidéos afin d'améliorer l'analyse du contenu visuel

Articles connexes

méso (chimie)EXAONE 4.0 - LG推出的混合推理模型

Simba : un système de gestion des connaissances pour l'organisation des documents, intégré de manière transparente dans tout système RAG.

OpenAvatarChat : un outil de dialogue humain numérique conçu de manière modulaire

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

Pas de commentaires

Derniers articles

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction générale

Liste des fonctions

Utiliser l'aide

Installation et fonctionnement

Environnement dépendant

Étapes de l'installation

Mode d'emploi

Fonction Opération Déroulement

opération d'échantillonnage

Metaverse AI : Version Open Source de l'outil de clonage humain numérique et de génération de courtes vidéos par l'IA

Omni-RGPT : un grand modèle multimodal pour la compréhension des régions d'images et de vidéos afin d'améliorer l'analyse du contenu visuel

Articles connexes

méso (chimie)EXAONE 4.0 - LG推出的混合推理模型

Simba : un système de gestion des connaissances pour l'organisation des documents, intégré de manière transparente dans tout système RAG.

OpenAvatarChat : un outil de dialogue humain numérique conçu de manière modulaire

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

Pas de commentaires

Outils d'IA sélectionnés

Derniers articles