LOADING

Sharenet
  • AI实操教程
  • AI实用指令
  • 课程资料
  • AI知识库
  • AI答疑
  • 我要投稿
    • 热门AI推荐
    • 最新AI工具
    • AI文章写作
    • AI图像生成
    • AI视频工具
    • AI办公效率
    • AI编程工具
    • AI设计工具
    • AI聊天助手
    • AI智能体

    多模态实时互动产品

    共 27 篇文章
    排序
    发布更新浏览点赞

    "Always-On" Deepseek AI Assistant:基于Deepseek-V3打造智能语音交互系统

    综合介绍 Always-On AI Assistant是一个创新的AI助手项目,它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术,打造了一个功能强大的永久在线AI助理系统...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    01.7K0
    小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

    小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

    综合介绍 小智 AI 聊天机器人是一个基于ESP32开发板的开源项目,旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发,主要用于教学目的,帮助更多人入门AI硬件开发,并了解如何将大语言模型应用到实...
    最新AI工具# AI开源项目# 多模态实时互动产品
    3个月前
    01.5K0
    Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

    Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

    综合介绍 Ichigo是一个开源的实时语音AI项目,旨在扩展基于文本的语言模型,使其具备原生的“听力”能力。该项目采用了早期融合技术,灵感来自Meta的Chameleon论文。Ichigo的目标是成为...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    01.3K0
    VITA:开源视觉与语音实时交互的多模态大语言模型

    VITA:开源视觉与语音实时交互的多模态大语言模型

    综合介绍 VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    01.2K0
    百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

    百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

    综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    01K0
    Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

    Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

    综合介绍 Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统,基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统,其最大特点是采用创新的无语...
    最新AI工具# AI开源项目# AI语音克隆# 多模态实时互动产品
    5个月前
    01K0
    OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

    OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

    综合介绍 OpenAI Realtime Agents是一个开源项目,旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式(借鉴 OpenAI Swarm),允许...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    01K0
    Weebo:实时语音聊天机器人,提供自然语言对话体验

    Weebo:实时语音聊天机器人,提供自然语言对话体验

    综合介绍 Weebo 是一个开源的实时语音聊天机器人,利用 Whisper Small 进行语音识别,Llama 3.2 进行自然语言生成,以及 Kokoro-82M 进行语音合成。该项目由 Aman...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    09980
    BrownChat:开源实时语音聊天的AI助手

    BrownChat:开源实时语音聊天的AI助手

    综合介绍 BrownChat 是一个基于大型语言模型(LLM)技术的实时音频聊天应用。该项目由 GitHub 用户 sugarforever 开发,旨在通过先进的自然语言处理技术提升用户的沟通体验。B...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    09980
    OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

    OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

    综合介绍 OpenAI Realtime API Next.js 是一个基于Next.js框架的开源项目,旨在帮助开发者快速构建实时语音AI应用。该项目集成了OpenAI的实时API和WebRTC技术...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    09880
    DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

    DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

    综合介绍 DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    09740
    TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

    TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

    综合介绍 TransRouter 是一个基于 Google Gemini 大模型的实时语音翻译工具,专门设计用于实现中英文之间的实时语音互译。该工具能够无缝集成到 Zoom 等视频会议软件中,为跨语言...
    最新AI工具# AI开源项目# 多模态实时互动产品
    5个月前
    09310
    Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

    Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

    综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    09300
    AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

    AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

    综合介绍 AI Web Operator 是一个开源的 AI 浏览器操作工具,旨在通过集成多种 AI 技术和 SDK,简化用户在浏览器中的操作体验。该工具基于 Browserbase 和 Vercel...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    09090
    OmAgent:构建多模态智能设备的智能体框架

    OmAgent:构建多模态智能设备的智能体框架

    综合介绍 OmAgent是由Om AI Lab开发的一个多模态智能体框架,旨在为智能设备提供强大的AI驱动功能。该项目通过整合最先进的多模态基础模型和智能体算法,使开发者能够在各种智能设备上创建高效...
    最新AI工具# AI开源项目# 多模态实时互动产品# 智能体开发框架
    5个月前
    08560
    Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

    Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

    综合介绍 Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川...
    最新AI工具# AI开源项目# AI语音克隆# 多模态实时互动产品
    3个月前
    08240
    PowerAgents:定时执行网页任务的AI智能体平台

    PowerAgents:定时执行网页任务的AI智能体平台

    综合介绍 PowerAgents 是一个专注于网页自动化任务的AI智能体平台,用户可以通过它创建并部署能够点击、输入和提取数据的AI智能体。该平台支持将任务设置为按小时、天或周自动运行,用户还能实时观...
    最新AI工具# 多模态实时互动产品
    3个月前
    08180
    SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

    SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

    综合介绍 SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实...
    最新AI工具# AI开源项目# 多模态实时互动产品
    4个月前
    08090
    Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

    Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

    综合介绍 Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 ...
    最新AI工具# AI开源项目# 多模态实时互动产品
    2个月前
    07680
    加载更多
    Sharenet
    Sharenet.ai,最好最全的AI学习指南与工具导航。一起拥抱人工智能浪潮!Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏❤️

    友链申请免责声明广告合作关于我们

    Copyright © 2025 Sharenet 
    zh_CN简体中文
    zh_CN简体中文en_USEnglish ja日本語 ko_KR한국어 es_ESEspañol de_DEDeutsch fr_FRFrançais pt_BRPortuguês do Brasil
    文章
    文章网址软件书籍