RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: diálogo hablado natural de baja latencia con IA

Introducción general RealtimeVoiceChat es un proyecto de código abierto centrado en conversaciones naturales y en tiempo real con inteligencia artificial a través de la voz. Los usuarios utilizan un micrófono para introducir su voz, y el sistema captura el audio a través de un navegador, lo convierte rápidamente en texto, y un gran modelo de lenguaje (LLM) genera de nuevo...
hace 2 meses
0549
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor: integración de barras de mando de IA en productos SaaS existentes

Stepsailor es una herramienta para desarrolladores cuyo núcleo es una barra de comandos de inteligencia artificial. Los desarrolladores pueden utilizarla para que sus productos de software entiendan lo que dice el usuario, como "añadir nueva tarea", y el software la ejecutará automáticamente. Se integra a través de un sencillo SDK en...
hace 3 meses
0537
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: proyecto de código abierto de posicionamiento de vídeos por marcas de tiempo y preguntas y respuestas

Introducción general VideoMind es una herramienta de IA multimodal de código abierto centrada en la inferencia, las preguntas y respuestas y la generación de resúmenes para vídeos largos. Fue desarrollada por Ye Liu, de la Universidad Politécnica de Hong Kong, y un equipo del Show Lab de la Universidad Nacional de Singapur. La herramienta imita la comprensión humana del vídeo...
hace 1 mes
0780
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: un modelo de medición final para entrada multimodal e interacción verbal en tiempo real

Introducción general Qwen2.5-Omni es un modelo de IA multimodal de código abierto desarrollado por el equipo Qwen de Alibaba Cloud. Puede procesar múltiples entradas, como texto, imágenes, audio y vídeo, y generar respuestas de texto o habla natural en tiempo real. El modelo se lanzó en 2025 el 3 ...
hace 4 meses
01.1K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: un modelo de audio de extremo a extremo para la interacción vocal en tiempo real

Introducción completa Baichuan-Audio es un proyecto de código abierto desarrollado por Baichuan Intelligence (baichuan-inc), alojado en GitHub, centrado en la tecnología de interacción de voz de extremo a extremo. El proyecto proporciona un marco completo de procesamiento de audio que permite ...
hace 5 meses
0739
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents: plataforma de inteligencia artificial para la ejecución cronometrada de tareas web

Introducción general PowerAgents es una plataforma de inteligencias IA centrada en tareas de automatización web, que permite a los usuarios crear y desplegar inteligencias IA capaces de hacer clic, introducir y extraer datos. La plataforma admite la configuración de tareas para que se ejecuten automáticamente cada hora, día o semana, y los usuarios también pueden ver en tiempo real...
hace 5 meses
01K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: un marco de interacción multimodal por voz que reconoce el habla y se comunica mediante habla clonada, entre otras funciones.

Introducción completa Step-Audio es un marco de interacción del habla inteligente de código abierto diseñado para proporcionar capacidades de comprensión y generación del habla listas para usar en entornos de producción. El marco admite conversaciones en varios idiomas (por ejemplo, chino, inglés, japonés), habla emocional (por ejemplo, feliz, triste), dialectos regionales (por ejemplo, cantonés, szechuan ...
hace 5 meses
01.1K
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor: un asistente inteligente de sobremesa basado en Gemini que puede ver, oír y hablar.

Introducción general Gemini Cursor es un asistente inteligente de escritorio basado en el modelo Gemini 2.0 Flash (experimental) de Google. Permite interacciones visuales, auditivas y de voz a través de una API multimodal, proporcionando un uso en tiempo real de baja latencia....
hace 5 meses
01.3K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción exhaustiva DeepSeek-VL2 es una serie de modelos avanzados de lenguaje visual Mixture-of-Experts (MoE) que mejoran significativamente el rendimiento de su predecesor, DeepSeek-VL. Los modelos son útiles en preguntas y respuestas visuales, reconocimiento óptico de caracteres,...
hace 5 meses
01.2K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: Automatización de navegadores, implementación de código abierto de OpenAI Operator

Introducción general AI Web Operator es una herramienta de código abierto AI navegador operador diseñado para simplificar la experiencia del usuario en el navegador mediante la integración de múltiples tecnologías de IA y SDKs. La herramienta se basa en Browserbase y Vercel....
hace 6 meses
01.1K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: un macromodelo de diálogo antropomórfico de extremo a extremo para la interacción en tiempo real

SpeechGPT 2.0-preview es el primer sistema antropomórfico de interacción en tiempo real introducido por OpenMOSS, que se entrena basándose en millones de horas de datos de habla. El sistema está equipado con una expresión hablada antropomórfica y una respuesta de baja latencia de 100 ms, lo que...
hace 6 meses
01.1K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

Agentes en tiempo real de OpenAI: una aplicación multiinteligente de interacción cuerpo-voz (ejemplo de OpenAI)

Introducción General OpenAI Realtime Agents es un proyecto de código abierto que tiene como objetivo mostrar cómo la API en tiempo real de OpenAI se puede utilizar para construir aplicaciones de voz corporal multi-inteligente. Proporciona un modelo de cuerpo inteligente de alto nivel (tomado de OpenAI Swarm) que permite...
hace 6 meses
01.3K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Introducción Bailing (Bailing) es un asistente de diálogo por voz de código abierto diseñado para entablar un diálogo natural con los usuarios a través del habla. El proyecto combina tecnologías de reconocimiento del habla (ASR), detección de la actividad de la voz (VAD), modelado amplio del lenguaje (LLM) y síntesis del habla (TTS) para lograr...
hace 6 meses
01.3K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: un marco corporal inteligente para construir dispositivos inteligentes multimodales

Introducción general OmAgent es un marco de cuerpo inteligente multimodal desarrollado por Om AI Lab, con el objetivo de proporcionar potentes funciones impulsadas por IA para dispositivos inteligentes. Mediante la integración de modelos base multimodales de última generación y algoritmos de cuerpo inteligente, el proyecto permite a los desarrolladores crear dispositivos inteligentes eficientes en una variedad de...
hace 6 meses
01.1K