「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
5ヶ月前
01.7K0
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AIチャットボット:AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話

综合介绍 小智 AI 聊天机器人是一个基于ESP32开发板的开源项目,旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发,主要用于教学目的,帮助更多人入门AI硬件开发,并了解如何将大语言模型应用到实...
3ヶ月前
01.5K0
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

综合介绍 Ichigo是一个开源的实时语音AI项目,旨在扩展基于文本的语言模型,使其具备原生的“听力”能力。该项目采用了早期融合技术,灵感来自Meta的Chameleon论文。Ichigo的目标是成为...
5ヶ月前
01.3K0
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

综合介绍 VITA是一个领先的开源交互式多模态大语言模型项目,率先实现了真正的全方位多模态交互能力。该项目于2024年8月推出VITA-1.0版本,开创了首个开源交互式全模态大语言模型的先河。2024...
5ヶ月前
01.2K0
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
4ヶ月前
01K0
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...
5ヶ月前
01K0
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)高レベルのインテリジェントボディモデルを提供し、...
4ヶ月前
01K0
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
5ヶ月前
01K0
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...
4ヶ月前
09830
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter:Geminiマルチモーダルモデルに基づく中英翻訳用リアルタイム音声変換ツール

综合介绍 TransRouter 是一个基于 Google Gemini 大模型的实时语音翻译工具,专门设计用于实现中英文之间的实时语音互译。该工具能够无缝集成到 Zoom 等视频会议软件中,为跨语言...
5ヶ月前
09420
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni:テキスト、画像、音声のマルチモーダル理解と解析をサポートするエンドサイド・マルチモーダル理解モデル

综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...
4ヶ月前
09360
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。
4ヶ月前
09120
OmAgent:构建多模态智能设备的智能体框架

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。
5ヶ月前
08640
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語、中国語、英語、日本語)をサポートしています。
3ヶ月前
08280
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents:時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム

PowerAgents は、ウェブ自動化タスクに特化した AI インテリジェンス・プラットフォームであり、データのクリック、入力、抽出が可能な AI インテリジェンスを作成、導入することができます。このプラットフォームは、1時間、1日、1週間単位で自動的に実行されるタスクの設定をサポートし、ユーザーはリアルタイムで...
3ヶ月前
08240
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...
4ヶ月前
08170
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
2ヶ月前
07700