RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat : dialogue vocal naturel à faible latence avec l'IA

Introduction générale RealtimeVoiceChat est un projet open source axé sur les conversations naturelles en temps réel avec l'intelligence artificielle par le biais de la voix. Les utilisateurs utilisent un microphone pour saisir leur voix, et le système capture l'audio via un navigateur, le convertit rapidement en texte, et un grand modèle de langage (LLM) génère...
Il y a 2 mois
0538
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor : intégration de barres de commande IA dans les produits SaaS existants

Stepsailor est un outil destiné aux développeurs, dont le cœur est une barre de commande IA. Les développeurs peuvent l'utiliser pour que leurs logiciels comprennent ce que dit l'utilisateur, par exemple "ajouter une nouvelle tâche", et le logiciel l'exécutera automatiquement. Il est intégré via un simple SDK dans...
Il y a 3 mois
0532
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind : projet open source de positionnement des vidéos en fonction de l'heure, du contenu et des questions-réponses

Introduction générale VideoMind est un outil d'IA multimodale open source qui se concentre sur l'inférence, les questions-réponses et la génération de résumés pour les vidéos de longue durée. Il a été développé par Ye Liu de l'Université polytechnique de Hong Kong et une équipe du Show Lab de l'Université nationale de Singapour. L'outil imite la compréhension humaine des vidéos...
Il y a 1 mois
0771
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni : un modèle de mesure finale pour la saisie multimodale et l'interaction vocale en temps réel

Introduction détaillée Qwen2.5-Omni est un modèle d'IA multimodale open source développé par l'équipe Qwen d'Alibaba Cloud. Il peut traiter de multiples entrées telles que du texte, des images, de l'audio et de la vidéo, et générer des réponses textuelles ou vocales naturelles en temps réel. Le modèle a été lancé en 2025, le 3 ...
Il y a 4 mois
01.1K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents : plateforme d'intelligence artificielle pour l'exécution de tâches Web temporisées

Introduction générale PowerAgents est une plateforme d'intelligence artificielle axée sur les tâches d'automatisation du Web, qui permet aux utilisateurs de créer et de déployer des intelligences intelligentes capables de cliquer, de saisir et d'extraire des données. La plateforme permet de définir des tâches à exécuter automatiquement toutes les heures, tous les jours ou toutes les semaines, et les utilisateurs peuvent également...
il y a 5 mois
01K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio : un cadre d'interaction vocale multimodale qui reconnaît la parole et communique à l'aide de la parole clonée, entre autres caractéristiques.

Introduction complète Step-Audio est un cadre d'interaction vocale intelligente open source conçu pour fournir des capacités de compréhension et de génération vocales prêtes à l'emploi pour les environnements de production. Le cadre prend en charge les conversations multilingues (par exemple, le chinois, l'anglais, le japonais), les discours émotionnels (par exemple, heureux, triste), les dialectes régionaux (par exemple, le cantonais, le sichuan ...
il y a 5 mois
01.1K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2 : un modèle expert de langage visuel pour une compréhension multimodale avancée

Introduction complète DeepSeek-VL2 est une série de modèles avancés de langage visuel avec mélange d'experts (MoE) qui améliorent de manière significative les performances de son prédécesseur, DeepSeek-VL. Les modèles sont utiles pour les questions-réponses visuelles, la reconnaissance...
il y a 5 mois
01.2K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview : un macromodèle de dialogue vocal anthropomorphique de bout en bout pour l'interaction en temps réel

SpeechGPT 2.0-preview est le premier système d'interaction anthropomorphique en temps réel introduit par OpenMOSS, qui est formé sur la base de millions d'heures de données vocales. Le système est équipé d'une expression vocale anthropomorphique et d'une réponse à faible latence de 100 ms, ce qui permet de...
Il y a 6 mois
01.1K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents : A Multi-Intelligent Body Speech Interaction Application (OpenAI Example)

Introduction générale OpenAI Realtime Agents est un projet open source qui vise à montrer comment l'API temps réel d'OpenAI peut être utilisée pour construire des applications vocales multi-intelligentes. Il fournit un modèle de corps intelligent de haut niveau (emprunté à OpenAI Swarm) qui permet...
Il y a 6 mois
01.3K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing : un assistant de dialogue vocal open source à faible latence pour la conversation et la communication naturelles

Introduction Bailing (Bailing) est un assistant de dialogue vocal open source conçu pour engager un dialogue naturel avec les utilisateurs par le biais de la parole. Le projet combine les technologies de reconnaissance vocale (ASR), de détection de l'activité vocale (VAD), de modélisation du langage (LLM) et de synthèse vocale (TTS) pour...
Il y a 6 mois
01.3K
OmAgent:构建多模态智能设备的智能体框架

OmAgent : un corps intelligent pour la construction d'appareils intelligents multimodaux

Introduction OmAgent est un cadre multimodal de corps intelligent développé par Om AI Lab, visant à fournir de puissantes fonctionnalités alimentées par l'IA pour les appareils intelligents. En intégrant des modèles de base multimodaux et des algorithmes de corps intelligents de pointe, le projet permet aux développeurs de créer des appareils intelligents efficaces sur une variété de...
Il y a 6 mois
01.1K