Vexa : un outil de transcription de réunions en temps réel et d'extraction intelligente de connaissances

Derniers outils d'IAPublié il y a 1 mois Sharenet.ai
266 0
Trae

Introduction générale

Vexa est une plateforme open source de transcription de réunions en temps réel et de gestion des connaissances conçue pour fournir des services efficaces d'enregistrement de réunions et d'extraction intelligente de connaissances pour les entreprises et les particuliers. Elle rejoint automatiquement Google Meet, Zoom et d'autres plateformes grâce à des robots de réunion pilotés par API qui transcrivent la voix en texte en temps réel et prennent en charge 99 langues.Vexa utilise une architecture microservices hautement évolutive et adaptée au traitement d'un grand nombre de tâches de transcription simultanées. Il met l'accent sur la sécurité des données au niveau de l'entreprise et offre des options de déploiement local pour garantir la conformité. Actuellement en version bêta fermée et disponible gratuitement sur le site officiel, Vexa se veut une alternative de niveau entreprise à recall.ai, combinant hautes performances et fonctionnalités riches.

Vexa:实时会议转录与智能知识提取工具

 

Liste des fonctions

  • Transcription des réunions en temps réelLes réunions Google Meet, Zoom et Microsoft Teams sont automatiquement prises en compte et les voix sont transcrites en texte en temps réel.
  • Prise en charge multilingueLa transcription est possible dans 99 langues pour les équipes internationales.
  • robot de conférenceSimplifier les opérations en contrôlant les bots pour qu'ils se joignent aux réunions par le biais d'une API.
  • extraction de connaissancesLe système RAG (Retrieval Augmented Generation) permet d'extraire des informations clés des transcriptions afin de créer une base de connaissances consultable.
  • Sécurité des entreprisesLe système d'information sur la vie privée : Il permet un déploiement local, protège la confidentialité des données et répond aux besoins en matière de conformité.
  • grande évolutivitéLe projet est basé sur une architecture de microservices permettant de prendre en charge des tâches de transcription massivement concurrentes.
  • streaming directPrise en charge de la capture audio directement à partir de pages web ou d'applications mobiles (en cours de développement).
  • contribution open sourceLes développeurs peuvent participer au développement et étendre les fonctionnalités par le biais de GitHub.

 

Utiliser l'aide

Installation et déploiement

Vexa est un projet open source adapté à un déploiement local par des utilisateurs ou des entreprises ayant des compétences techniques. Vous trouverez ci-dessous la procédure d'installation détaillée :

  1. entrepôt de clones
    Ouvrez un terminal et exécutez la commande suivante pour cloner le dépôt Vexa :

    git clone https://github.com/Vexa-ai/vexa.git
    cd vexa
    
  2. Initialisation des sous-modules
    Vexa utilise des sous-modules Git pour gérer les dépendances (comme services/vexa-bot et services/WhisperLive). Exécuter :

    make submodules
    
  3. Configuration des variables d'environnement
    Créer et modifier le fichier de configuration de l'environnement :

    make env
    

    Définir des paramètres dans le fichier .env, tels que ADMIN_API_TOKEN (clé API de l'administrateur). Ajustez les paramètres Chuchotement Chemin d'accès au modèle ou configuration de la base de données.

  4. Télécharger les modèles Whisper
    Vexa utilise le modèle Whisper pour la transcription vocale. Exécutez la commande suivante :

    make download-model
    

    Le modèle sera stocké dans le répertoire . /hub et monté sur le conteneur WhisperLive.

  5. Construire un miroir robotisé pour la conférence
    Construire des images Docker pour les robots Vexa :

    docker build -t vexa-bot:latest -f services/vexa-bot/core/Dockerfile ./services/vexa-bot/core
    
  6. Démarrage des services
    Utilisez Docker Compose pour construire et exécuter le service :

    docker compose build
    docker compose up -d
    

    Lorsque le service démarre, la passerelle API s'exécute à l'adresse http://localhost:8056 et l'interface de gestion à l'adresse http://localhost:8057.

Fonction principale Fonctionnement

Transcription des réunions en temps réel

La fonction principale de Vexa est la transcription en temps réel de la voix d'une réunion par l'intermédiaire d'un robot de réunion. La procédure est la suivante :

  1. Demander une clé API
    Visitez https://api.dev.vexa.ai/pricing pour demander une clé API pour des tests fermés. Après avoir soumis la demande, obtenez la clé X-API.
  2. Envoyer un robot pour participer à une réunion
    Utilisez une requête API pour que le robot rejoigne une réunion. Par exemple, rejoindre une réunion Google :

    curl -X POST https://gateway.dev.vexa.ai/bots \
    -H "Content-Type: application/json" \
    -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    -d '{"native_meeting_id": "xxx-xxxx-xxx", "platform": "google_meet"}'
    

    En cas de succès, le JSON est renvoyé avec l'identifiant de la réunion et le statut du robot.

  3. Accès aux données de transcription
    Utilisez l'identifiant de session pour obtenir des relevés de notes :

    curl -H "X-API-Key: YOUR_CLIENT_API_KEY" \
    https://gateway.dev.vexa.ai/transcripts/google_meet/xxx-xxxx-xxx
    

    Retourner à l'exemple :

    {
    "data": {
    "meeting_id": "meet_abc123",
    "transcripts": [
    {"time": "00:01:15", "speaker": "John Smith", "text": "Let's discuss the quarterly results."},
    {"time": "00:01:23", "speaker": "Sarah Johnson", "text": "The Q3 revenue exceeded our projections by 15%."}
    ]
    }
    }
    

Prise en charge multilingue

Vexa permet la transcription en temps réel dans 99 langues. Méthode d'installation :

  • Spécifiez la langue dans le fichier .env, par exemple LANGUAGE=fr.
  • Ajouter un paramètre de langue à la demande d'API :
    curl -X POST -H "Content-Type: application/octet-stream" \
    -d '{"language": "es"}' \
    http://localhost:8033/
    

    Le système transcrira automatiquement la réunion dans la langue spécifiée.

extraction de connaissances

Vexa's RAG Les fonctions extraient des informations clés des transcriptions pour générer une base de connaissances structurée :

  1. Voir la base de connaissances
    Les entrées de connaissances générées sont accessibles via l'interface de gestion (http://localhost:8057) ou une API.
  2. recherche d'informations
    Effectuez une recherche dans la base de connaissances à l'aide de mots-clés et RAG vous renverra les minutes et le contexte pertinents.
  3. Exporter des données
    Exporter les entrées de connaissances via l'API au format JSON ou CSV à des fins d'analyse ou d'archivage.

Direct Streaming (en cours de développement)

Vexa prévoit de prendre en charge la capture audio directement à partir d'applications web ou mobiles. Les utilisateurs téléchargeront des flux audio via un SDK ou une API et le système les transcrira en temps réel. Cette fonction devrait être opérationnelle en 2025.

Autres fonctions

  • Sécurité des entreprisesLes entreprises peuvent configurer les droits d'accès en fonction de leurs besoins en matière de conformité. Les entreprises peuvent configurer les droits d'accès en fonction des besoins de conformité.
  • grande évolutivitéL'architecture Microservices attribue automatiquement les tâches. Sans intervention manuelle, le système peut gérer des milliers de transcriptions simultanées.
  • Contributions communautairesLes développeurs peuvent discuter des tâches ou soumettre du code via Discord (https://discord.gg/Ga9duGkVz9).

mise en garde

  • exigences en matière de matérielLes serveurs équipés de GPU NVIDIA sont recommandés, avec 16 Go de RAM et des CPU à 4 cœurs.
  • Mise à jour de la maintenanceLes fonctionnalités les plus récentes sont disponibles sur le site : Exécutez git pull et docker compose up --build périodiquement pour obtenir les dernières fonctionnalités.
  • test ferméL'accès à l'API nécessite une clé, et le nombre de créneaux de test disponibles est limité.
  • progrès du développementLa reconnaissance du locuteur est en cours de développement, et les robots Microsoft Teams et Zoom devraient être mis en service en avril et mai 2025, respectivement.

 

scénario d'application

  1. Conférence sur les entreprises multinationales
    Les équipes multinationales utilisent Vexa pour transcrire les réunions multilingues, traduire en anglais en temps réel, extraire les points de décision et générer une base de connaissances consultable pour faciliter la collaboration à l'échelle mondiale.
  2. gestion de projet
    Les équipes de développement enregistrent les réunions techniques et Vexa extrait les attributions de tâches et les calendriers, générant des rapports automatisés et réduisant la collecte manuelle.
  3. Optimisation du support client
    L'équipe du service clientèle transcrit les appels des clients, extrait les problèmes et les solutions les plus courants et crée une base de connaissances pour améliorer la rapidité et la cohérence des réponses.
  4. Dossiers de recherche académique
    Les chercheurs enregistrent les entretiens ou les ateliers, et Vexa transcrit et analyse le contenu, générant des données structurées pour soutenir la rédaction d'articles.

 

QA

  1. Quelles sont les plateformes supportées par Vexa ?
    La prise en charge actuelle des bots Google Meet, Microsoft Teams et Zoom devrait être effective en 2025.
  2. Comment demander une clé de test ?
    Visitez https://api.dev.vexa.ai/pricing pour soumettre une demande de test gratuit X-API-Key.
  3. Quelles sont les ressources nécessaires au déploiement local ?
    Serveurs recommandés avec des GPU NVIDIA, au moins 16 Go de RAM et des CPU à 4 cœurs.
  4. Vexa permet-il la traduction en temps réel ?
    Actuellement, 99 langues sont prises en charge pour la transcription, la traduction en temps réel étant prévue pour 2025.
  5. Comment puis-je participer au développement ?
    Rejoignez Discord (https://discord.gg/Ga9duGkVz9), consultez CONTRIBUTING.md et soumettez la Pull Request.
© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...