Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...
5 meses atrás
01K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: um assistente de diálogo de voz de código aberto de baixa latência para conversação e comunicação naturais

综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...
5 meses atrás
01.1K
WikiChat:使用维基百科数据检索知识的聊天工具

WikiChat: uma ferramenta de bate-papo para recuperar conhecimento usando dados da Wikipédia

Introdução geral O WikiChat é um chatbot experimental desenvolvido na Universidade de Stanford com o objetivo de aprimorar a factualidade de modelos de linguagem grandes recuperando dados da Wikipédia. Os grandes modelos de linguagem (como o ChatGPT e o GPT-4) tendem a processar informações atualizadas ou tópicos menos populares quando...
5 meses atrás
0999
AIEvo:创建多智能体协作应用的高效框架

AIEvo: uma estrutura eficiente para a criação de aplicativos colaborativos multiinteligentes

综合介绍 AIEvo是蚂蚁集团开源的多代理框架,旨在高效创建多代理应用。该框架严格遵循SOP任务图,提升复杂任务的执行成功率,并通过反馈和监控机制确保高灵活性和可扩展性。AIEvo已在蚂蚁集团内部生产...
5 meses atrás
0978
MangaNinjia:自动化线稿上色工具,为动漫黑白线稿快速填色

MangaNinjia: uma ferramenta automatizada de coloração de linhas para colorir rapidamente desenhos de anime em preto e branco.

综合介绍 MangaNinjia 是阿里巴巴通义视觉智能实验室(Ali-Vilab)开发的一个开源项目,专注于线稿上色的自动化处理。这一工具通过深度学习技术,实现了对参考图像的精确色彩匹配,极大地提高...
5 meses atrás
01.2K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: ferramenta de conversão de fala em texto em tempo real para reconhecimento de fala em streaming de baixa latência com base no Whisper

Introdução geral O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente e de baixa latência em tempo real, com detecção avançada de atividade de fala e ativação de palavras de alerta. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem conversão de fala em texto rápida e precisa...
5 meses atrás
01.3K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita: uma estrutura de código aberto para criar aplicativos RAG modulares e testar rapidamente diversas estratégias RAG

Introdução abrangente A Cognita é uma estrutura de código aberto desenvolvida pela TrueFoundry para simplificar o desenvolvimento de aplicativos baseados em RAG (Retrieval-Augmented Generation). A estrutura fornece um sistema estruturado, mod...
5 meses atrás
0984
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: uma plataforma de desenvolvimento e gerenciamento de inteligência múltipla de IA baseada em .NET

综合介绍 BotSharp是基于.NET Core的一个开源项目,致力于提供一个全面的AI聊天机器人平台构建工具。它采用C#编程,支持跨平台操作,旨在简化机器学习算法的应用,使企业级开发者能够高效地将...
5 meses atrás
0936
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: uma ferramenta de código aberto para transpainting de fotos e vídeos para estilização de anime

综合介绍 DCT-Net 是一个由 DAMO 学院和北京大学王选计算机技术研究所共同开发的开源项目,旨在实现图像的动漫风格化转换。该项目利用深度学习技术,通过域校准翻译(Domain-Calibrat...
5 meses atrás
01.3K
OmAgent:构建多模态智能设备的智能体框架

OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais

综合介绍 OmAgent是由Om AI Lab开发的一个多模态智能体框架,旨在为智能设备提供强大的AI驱动功能。该项目通过整合最先进的多模态基础模型和智能体算法,使开发者能够在各种智能设备上创建高效...
5 meses atrás
0955