Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4ヶ月前07430
xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス一般的な紹介 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルをベースにしています。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前07350
Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品3ヶ月前05520
MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前04850
VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。最新のAIツール# AI Java オープンソースプロジェクト# AIテキストおよび音声/ビデオ要約ツール# AIオーディオ/ビデオ・エディター2ヶ月前04770
OpenAvatarChat:モジュール設計されたデジタル人間対話ツール概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前03920
Stepsailor:既存のSaaS製品にAIコマンドバーを統合Stepsailorは、AIコマンドバーを核とした開発者向けツールである。開発者はこれを使用することで、「新しいタスクを追加する」といったユーザーの発言をソフトウェア製品に理解させることができ、ソフトウェアはそれを自動的に実行する。シンプルなSDKを経由して...最新のAIツール# プロフェッショナル生産性ツール# マルチモーダルなリアルタイム・インタラクティブ製品2ヶ月前03220
RealtimeVoiceChat: AIとの低遅延自然音声対話はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。最新のAIツール# AI Java オープンソースプロジェクト# マルチモーダルなリアルタイム・インタラクティブ製品4週間前02840