OmAgent:构建多模态智能设备的智能体框架

OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais

综合介绍 OmAgent是由Om AI Lab开发的一个多模态智能体框架,旨在为智能设备提供强大的AI驱动功能。该项目通过整合最先进的多模态基础模型和智能体算法,使开发者能够在各种智能设备上创建高效...
5 meses atrás
08650
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

综合介绍 VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024...
5 meses atrás
01.2K0
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter: uma ferramenta de conversão de áudio em tempo real para tradução de chinês para inglês com base no modelo multimodal Gemini

综合介绍 TransRouter 是一个基于 Google Gemini 大模型的实时语音翻译工具,专门设计用于实现中英文之间的实时语音互译。该工具能够无缝集成到 Zoom 等视频会议软件中,为跨语言...
5 meses atrás
09430
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Introdução abrangente Fish Speech Derivative Project O Fish Agent é um sistema revolucionário de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, seu recurso mais importante é o uso de...
5 meses atrás
01K0