Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
4ヶ月前
07430
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

一般的な紹介 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルをベースにしています。
3ヶ月前
07350
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...
3ヶ月前
05520
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
2ヶ月前
04850
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。
2ヶ月前
04770
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...
2ヶ月前
03920
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor:既存のSaaS製品にAIコマンドバーを統合

Stepsailorは、AIコマンドバーを核とした開発者向けツールである。開発者はこれを使用することで、「新しいタスクを追加する」といったユーザーの発言をソフトウェア製品に理解させることができ、ソフトウェアはそれを自動的に実行する。シンプルなSDKを経由して...
2ヶ月前
03220
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: AIとの低遅延自然音声対話

はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。
4週間前
02840