多模态实时互动产品 - 第2页

in Ordnung bringen

综合介绍 Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash（实验性）模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互，提供实时低延迟的用...

vor 4 Monaten

07430

综合介绍 xiaozhi-esp32-server 是一个为小智AI聊天机器人（xiaozhi-esp32）提供后端服务的工具。它用 Python 编写，基于 WebSocket 协议，帮助用户快速...

vor 3 Monaten

07350

综合介绍 Baichuan-Audio 是由百川智能（baichuan-inc）开发的一个开源项目，托管于 GitHub 上，专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架，能够将语音...

vor 3 Monaten

05520

综合介绍 MoshiVis 是 Kyutai Labs 开发的一个开源项目，托管在 GitHub 上。它基于 Moshi 语音-文本模型（7B 参数），新增了约 2.06 亿个适配参数和冻结的 Pal...

vor 2 Monaten

04850

综合介绍 VideoMind 是一个开源的多模态AI工具，专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔（Ye Liu）和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频...

vor 2 Monaten

04770

综合介绍 OpenAvatarChat 是由 HumanAIGC-Engineering 团队开发的一个开源项目，托管在 GitHub 上。它是一个模块化的数字人对话工具，用户可以在单台 PC 上运行...

vor 2 Monaten

03920

综合介绍 Stepsailor 是一个专为开发者打造的工具，核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话，比如用户说“添加新任务”，软件就自动执行。它通过简单的 SDK 集成到...

vor 2 Monaten

03220

综合介绍 RealtimeVoiceChat 是一个开源项目，专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音，系统通过浏览器捕获音频，快速转为文字，由大型语言模型（LLM）生成回...

vor 4 Wochen

02840

Multimodale interaktive Produkte in Echtzeit