RealtimeVoiceChat: AIとの低遅延自然音声対話はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4週間前02710
Stepsailor:既存のSaaS製品にAIコマンドバーを統合Stepsailorは、AIコマンドバーを核とした開発者向けツールである。開発者はこれを使用することで、「新しいタスクを追加する」といったユーザーの発言をソフトウェア製品に理解させることができ、ソフトウェアはそれを自動的に実行する。シンプルなSDKを経由して...最新のAIツール# プロフェッショナル生産性ツール# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前03090
OpenAvatarChat:モジュール設計されたデジタル人間対話ツール概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前03870
VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。最新のAIツール# AI Java オープンソースプロジェクト# AIテキストおよび音声/ビデオ要約ツール# AIオーディオ/ビデオ・エディター2ヶ月前04680
MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前04770
Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前07700
Xiaozhi AIチャットボット:AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話综合介绍 小智 AI 聊天机器人是一个基于ESP32开发板的开源项目,旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发,主要用于教学目的,帮助更多人入门AI硬件开发,并了解如何将大语言模型应用到实...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前01.5K0
xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス一般的な紹介 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルをベースにしています。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前07260
Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前05450
PowerAgents:時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォームPowerAgents は、ウェブ自動化タスクに特化した AI インテリジェンス・プラットフォームであり、データのクリック、入力、抽出が可能な AI インテリジェンスを作成、導入することができます。このプラットフォームは、1時間、1日、1週間単位で自動的に実行されるタスクの設定をサポートし、ユーザーはリアルタイムで...最新のAIツール# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前08240
Step-Audio:マルチモーダル音声インタラクションフレームワーク。包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語、中国語、英語、日本語)をサポートしています。最新のAIツール# AI Java オープンソースプロジェクト# AIボイスクローニング# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前08280
Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前07310
DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前09830
AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前09120
SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデルSpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前08170
OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)高レベルのインテリジェントボディモデルを提供し、...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前01K0
Megrez-3B-Omni:テキスト、画像、音声のマルチモーダル理解と解析をサポートするエンドサイド・マルチモーダル理解モデル综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前09360
Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前01K0
Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボットはじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品5ヶ月前01K0