Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说综合介绍 Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품4개월 전07420
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务综合介绍 xiaozhi-esp32-server 是一个为 小智AI聊天机器人(xiaozhi-esp32)提供后端服务的工具。它用 Python 编写,基于 WebSocket 协议,帮助用户快速...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품3 개월 전07350
Baichuan-Audio:支持实时语音交互的端到端音频模型综合介绍 Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품3 개월 전05500
MoshiVis:实时语音对话和图像理解的开源模型综合介绍 MoshiVis 是 Kyutai Labs 开发的一个开源项目,托管在 GitHub 上。它基于 Moshi 语音-文本模型(7B 参数),新增了约 2.06 亿个适配参数和冻结的 Pal...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품2개월 전04850
VideoMind: 타임스탬프별 동영상 포지셔닝 콘텐츠 및 Q&A 오픈 소스 프로젝트일반 소개 비디오마인드는 긴 동영상을 위한 추론, Q&A 및 요약 생성에 중점을 둔 오픈 소스 멀티모달 AI 도구입니다. 홍콩 폴리테크닉 대학교의 예 리우와 싱가포르 국립대학교의 쇼 랩 팀이 개발했습니다. 이 도구는 비디오에 대한 인간의 이해를 모방합니다...최신 AI 도구# AI 자바 오픈 소스 프로젝트# AI 텍스트 및 오디오/비디오 요약 도구# AI 오디오/비디오 편집기2개월 전04770
오픈아바타챗: 모듈식으로 설계된 디지털 인간 대화 도구일반 소개 오픈아바타챗은 휴먼에이아이지씨 엔지니어링 팀이 개발하여 깃허브에서 호스팅하는 오픈소스 프로젝트입니다. 사용자가 단일 PC에서 실행할 수 있는 모듈식 디지털 인간 대화 도구입니다...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품2개월 전03920
Stepsailor:在现有SaaS产品中集成AI命令栏综合介绍 Stepsailor 是一个专为开发者打造的工具,核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话,比如用户说“添加新任务”,软件就自动执行。它通过简单的 SDK 集成到...최신 AI 도구# 전문가용 생산성 도구# 멀티모달 실시간 인터랙티브 제품2개월 전03210
RealtimeVoiceChat:低延迟与AI进行自然口语对话综合介绍 RealtimeVoiceChat 是一个开源项目,专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音,系统通过浏览器捕获音频,快速转为文字,由大型语言模型(LLM)生成回...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 멀티모달 실시간 인터랙티브 제품4주 전02840