VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind: vídeo por conteúdo de posicionamento de carimbo de data/hora e projeto de código aberto de perguntas e respostas

综合介绍 VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频...
2 meses atrás
04620
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot: crie seu companheiro de bate-papo com IA, diálogo de voz fácil e interação inteligente

综合介绍 小智 AI 聊天机器人是一个基于ESP32开发板的开源项目,旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发,主要用于教学目的,帮助更多人入门AI硬件开发,并了解如何将大语言模型应用到实...
3 meses atrás
01.5K0
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

综合介绍 Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川...
3 meses atrás
08240
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...
4 meses atrás
09300
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: um assistente de diálogo de voz de código aberto de baixa latência para conversação e comunicação naturais

综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...
4 meses atrás
01K0