로드 중

Sharenet
  • AI 실습 튜토리얼
  • AI 유틸리티 명령
  • 코스 정보
  • AI 기술 자료
  • AI 답변
  • 기여하고 싶습니다.
    • 최고의 AI 추천
    • 최신 AI 도구
    • AI 기사 작성
    • AI 이미지 생성
    • AI 비디오 도구
    • AI 오피스 효율성
    • AI 프로그래밍 도구
    • AI 디자인 도구
    • AI 채팅 도우미
    • AI 인텔리전스

    多模态实时互动产品

    共 27 篇文章
    排序
    发布更新浏览点赞
    RealtimeVoiceChat:低延迟与AI进行自然口语对话

    RealtimeVoiceChat:低延迟与AI进行自然口语对话

    综合介绍 RealtimeVoiceChat 是一个开源项目,专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音,系统通过浏览器捕获音频,快速转为文字,由大型语言模型(LLM)生成回...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4周前
    02640
    Stepsailor:在现有SaaS产品中集成AI命令栏

    Stepsailor:在现有SaaS产品中集成AI命令栏

    综合介绍 Stepsailor 是一个专为开发者打造的工具,核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话,比如用户说“添加新任务”,软件就自动执行。它通过简单的 SDK 集成到...
    최신 AI 도구# 专业生产力工具# 多模态实时互动产品
    2个月前
    02930
    OpenAvatarChat:模块化设计的数字人对话工具

    OpenAvatarChat:模块化设计的数字人对话工具

    综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目,托管在 GitHub 上。它是一个模块化的数字人对话工具,用户可以在单台 PC 上运行...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    2个月前
    03750
    VideoMind:视频按时间戳定位内容与问答的开源项目

    VideoMind:视频按时间戳定位内容与问答的开源项目

    综合介绍 VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频...
    최신 AI 도구# AI开源项目# AI文本与音频/视频总结工具# AI音视频编辑
    2个月前
    04480
    MoshiVis:实时语音对话和图像理解的开源模型

    MoshiVis:实时语音对话和图像理解的开源模型

    综合介绍 MoshiVis 是 Kyutai Labs 开发的一个开源项目,托管在 GitHub 上。它基于 Moshi 语音-文本模型(7B 参数),新增了约 2.06 亿个适配参数和冻结的 Pal...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    2个月前
    04680
    Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

    Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

    综合介绍 Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 ...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    2个月前
    07600
    xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

    xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

    综合介绍 xiaozhi-esp32-server 是一个为 小智AI聊天机器人(xiaozhi-esp32)提供后端服务的工具。它用 Python 编写,基于 WebSocket 协议,帮助用户快速...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    2个月前
    07040
    Baichuan-Audio:支持实时语音交互的端到端音频模型

    Baichuan-Audio:支持实时语音交互的端到端音频模型

    综合介绍 Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    3 개월 전
    05310
    PowerAgents:定时执行网页任务的AI智能体平台

    PowerAgents:定时执行网页任务的AI智能体平台

    综合介绍 PowerAgents 是一个专注于网页自动化任务的AI智能体平台,用户可以通过它创建并部署能够点击、输入和提取数据的AI智能体。该平台支持将任务设置为按小时、天或周自动运行,用户还能实时观...
    최신 AI 도구# 多模态实时互动产品
    3 개월 전
    08140
    Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

    Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

    综合介绍 Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川...
    최신 AI 도구# AI开源项目# AI语音克隆# 多模态实时互动产品
    3 개월 전
    08220
    Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

    Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

    综合介绍 Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    07230
    DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

    DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

    综合介绍 DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    09690
    AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

    AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

    综合介绍 AI Web Operator 是一个开源的 AI 浏览器操作工具,旨在通过集成多种 AI 技术和 SDK,简化用户在浏览器中的操作体验。该工具基于 Browserbase 和 Vercel...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    09030
    SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

    SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

    综合介绍 SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    08060
    OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

    OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

    综合介绍 OpenAI Realtime Agents是一个开源项目,旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式(借鉴 OpenAI Swarm),允许...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    01K0
    百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

    百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

    综合介绍 百聆(Bailing)是一个开源的语音对话助手,旨在通过语音与用户进行自然的对话。该项目结合了语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术,实现了...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    01K0
    Weebo:实时语音聊天机器人,提供自然语言对话体验

    Weebo:实时语音聊天机器人,提供自然语言对话体验

    综合介绍 Weebo 是一个开源的实时语音聊天机器人,利用 Whisper Small 进行语音识别,Llama 3.2 进行自然语言生成,以及 Kokoro-82M 进行语音合成。该项目由 Aman...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    4개월 전
    09940
    OmAgent:构建多模态智能设备的智能体框架

    OmAgent:构建多模态智能设备的智能体框架

    综合介绍 OmAgent是由Om AI Lab开发的一个多模态智能体框架,旨在为智能设备提供强大的AI驱动功能。该项目通过整合最先进的多模态基础模型和智能体算法,使开发者能够在各种智能设备上创建高效...
    최신 AI 도구# AI开源项目# 多模态实时互动产品# 智能体开发框架
    4개월 전
    08510

    "Always-On" Deepseek AI Assistant:基于Deepseek-V3打造智能语音交互系统

    综合介绍 Always-On AI Assistant是一个创新的AI助手项目,它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术,打造了一个功能强大的永久在线AI助理系统...
    최신 AI 도구# AI开源项目# 多模态实时互动产品
    5개월 전
    01.7K0
    加载更多
    Sharenet
    Sharenet.ai, 가장 포괄적인 AI 학습 가이드 및 도구 탐색. 인공지능의 물결을 함께 맞이하세요! 브라우저 북마크 바에 이 사이트 북마크 추가 ❤️

    친숙한 링크 애플리케이션책임을 부인하거나 제한하는 진술광고 협력회사 소개

    저작권 © 2025 Sharenet 
    ko_KR한국어
    ko_KR한국어zh_CN简体中文 en_USEnglish ja日本語 es_ESEspañol de_DEDeutsch fr_FRFrançais pt_BRPortuguês do Brasil
    글쓰기
    글쓰기웹 주소하드웨어책