多模态实时互动产品

mettre en ordre

RealtimeVoiceChat : dialogue vocal naturel à faible latence avec l'IA

Introduction générale RealtimeVoiceChat est un projet open source axé sur les conversations naturelles en temps réel avec l'intelligence artificielle par le biais de la voix. Les utilisateurs utilisent un microphone pour saisir leur voix, et le système capture l'audio via un navigateur, le convertit rapidement en texte, et un grand modèle de langage (LLM) génère...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 2 mois

0538

Stepsailor : intégration de barres de commande IA dans les produits SaaS existants

Stepsailor est un outil destiné aux développeurs, dont le cœur est une barre de commande IA. Les développeurs peuvent l'utiliser pour que leurs logiciels comprennent ce que dit l'utilisateur, par exemple "ajouter une nouvelle tâche", et le logiciel l'exécutera automatiquement. Il est intégré via un simple SDK dans...

Derniers outils d'IA # Outils de productivité professionnels # Produits multimodaux interactifs en temps réel

Il y a 3 mois

0532

OpenAvatarChat : un outil de dialogue humain numérique conçu de manière modulaire

Introduction générale OpenAvatarChat est un projet open source développé par l'équipe HumanAIGC-Engineering et hébergé sur GitHub. Il s'agit d'un outil modulaire de dialogue humain numérique qui permet aux utilisateurs de fonctionner sur un seul PC...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 3 mois

0617

VideoMind : projet open source de positionnement des vidéos en fonction de l'heure, du contenu et des questions-réponses

Introduction générale VideoMind est un outil d'IA multimodale open source qui se concentre sur l'inférence, les questions-réponses et la génération de résumés pour les vidéos de longue durée. Il a été développé par Ye Liu de l'Université polytechnique de Hong Kong et une équipe du Show Lab de l'Université nationale de Singapour. L'outil imite la compréhension humaine des vidéos...

Derniers outils d'IA # AI Java Open Source Projecct # Outil de résumé de texte AI et d'audio/vidéo # AI éditeur audio/vidéo

Il y a 1 mois

0771

MoshiVis : un modèle open source pour le dialogue vocal en temps réel et la compréhension des images

Introduction générale MoshiVis est un projet open source développé par Kyutai Labs et hébergé sur GitHub. Il est basé sur le modèle de synthèse vocale Moshi (7B paramètres), avec environ 206 millions de nouveaux paramètres d'adaptation et Pal...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 4 mois

0679

Qwen2.5-Omni : un modèle de mesure finale pour la saisie multimodale et l'interaction vocale en temps réel

Introduction détaillée Qwen2.5-Omni est un modèle d'IA multimodale open source développé par l'équipe Qwen d'Alibaba Cloud. Il peut traiter de multiples entrées telles que du texte, des images, de l'audio et de la vidéo, et générer des réponses textuelles ou vocales naturelles en temps réel. Le modèle a été lancé en 2025, le 3 ...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 4 mois

01.1K

xiaozhi-esp32-server : Service backend open source pour le chatbot Xiaozhi AI

Introduction générale xiaozhi-esp32-server est un outil qui fournit un service de backend pour le chatbot Xiaozhi AI (xiaozhi-esp32). Il est écrit en Python et basé sur le protocole WebSocket pour aider les utilisateurs à...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 4 mois

01.1K

Baichuan-Audio : un modèle audio de bout en bout pour l'interaction vocale en temps réel

Introduction complète Baichuan-Audio est un projet open source développé par Baichuan Intelligence (baichuan-inc), hébergé sur GitHub, qui se concentre sur la technologie d'interaction vocale de bout en bout. Le projet fournit un cadre de traitement audio complet qui permet de ...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

0732

PowerAgents : plateforme d'intelligence artificielle pour l'exécution de tâches Web temporisées

Introduction générale PowerAgents est une plateforme d'intelligence artificielle axée sur les tâches d'automatisation du Web, qui permet aux utilisateurs de créer et de déployer des intelligences intelligentes capables de cliquer, de saisir et d'extraire des données. La plateforme permet de définir des tâches à exécuter automatiquement toutes les heures, tous les jours ou toutes les semaines, et les utilisateurs peuvent également...

Derniers outils d'IA # Produits multimodaux interactifs en temps réel

il y a 5 mois

01K

Step-Audio : un cadre d'interaction vocale multimodale qui reconnaît la parole et communique à l'aide de la parole clonée, entre autres caractéristiques.

Introduction complète Step-Audio est un cadre d'interaction vocale intelligente open source conçu pour fournir des capacités de compréhension et de génération vocales prêtes à l'emploi pour les environnements de production. Le cadre prend en charge les conversations multilingues (par exemple, le chinois, l'anglais, le japonais), les discours émotionnels (par exemple, heureux, triste), les dialectes régionaux (par exemple, le cantonais, le sichuan ...

Derniers outils d'IA # AI Java Open Source Projecct # Clonage vocal AI # Produits multimodaux interactifs en temps réel

il y a 5 mois

01.1K

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说

Gemini Cursor : un assistant intelligent de bureau basé sur Gemini, capable de voir, d'entendre et de parler.

Introduction générale Gemini Cursor est un assistant intelligent de bureau basé sur le modèle Gemini 2.0 Flash (expérimental) de Google. Il permet des interactions visuelles, auditives et vocales par le biais d'une API multimodale, offrant une utilisation...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

01.2K

DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Introduction complète DeepSeek-VL2 est une série de modèles avancés de langage visuel avec mélange d'experts (MoE) qui améliorent de manière significative les performances de son prédécesseur, DeepSeek-VL. Les modèles sont utiles pour les questions-réponses visuelles, la reconnaissance...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

01.2K

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现

AI Web Operator : Automatisation du navigateur, implémentation Open Source d'OpenAI Operator

Introduction générale AI Web Operator est un outil d'exploitation de navigateur d'IA open source conçu pour simplifier l'expérience de l'utilisateur dans le navigateur en intégrant plusieurs technologies d'IA et SDK. L'outil est basé sur Browserbase et Vercel...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

il y a 5 mois

01.1K

SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, qui est formé sur la base de millions d'heures de données vocales. Le système est équipé d'une expression vocale anthropomorphique et d'une réponse à faible latence de 100 ms, ce qui permet de...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

01.1K

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）

OpenAI Realtime Agents : A Multi-Intelligent Body Speech Interaction Application (OpenAI Example)

Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

01.3K

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

01.3K

Weebo : un chatbot vocal en temps réel qui offre une expérience de dialogue en langage naturel

Introduction générale Weebo est un chatbot vocal en temps réel open source qui utilise Whisper Small pour la reconnaissance vocale, Llama 3.2 pour la génération de langage naturel et Kokoro-82M pour la synthèse vocale. Le projet a été développé par Aman...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

01.3K

OmAgent : un corps intelligent pour la construction d'appareils intelligents multimodaux

Introduction OmAgent est un cadre multimodal de corps intelligent développé par Om AI Lab, visant à fournir de puissantes fonctionnalités alimentées par l'IA pour les appareils intelligents. En intégrant des modèles de base multimodaux et des algorithmes de corps intelligents de pointe, le projet permet aux développeurs de créer des appareils intelligents efficaces sur une variété de...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel # Cadre de développement de l'organisme intelligent

Il y a 6 mois

01.1K

"Assistant IA Deepseek toujours actif : construction d'un système d'interaction vocale intelligent basé sur Deepseek-V3

Introduction complète Always-On AI Assistant est un projet innovant d'assistant d'IA qui crée un système d'assistant d'IA puissant et permanent en ligne en intégrant des technologies avancées telles que Deepseek-V3, RealtimeSTT et Typer...

Derniers outils d'IA # AI Java Open Source Projecct # Produits multimodaux interactifs en temps réel

Il y a 6 mois

02.1K