Sim Studio:开源的AI代理工作流构建工具

Sim Studio: AIエージェントのためのオープンソースワークフロービルダー

包括的な紹介 Sim Studioは、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル(LLM)ワークフローの迅速な設計、テスト、およびデプロイを支援することに重点を置いた、オープンソースのAIエージェントワークフロー構築プラットフォームです。ドラッグ&ドロップで複雑なワークフローを作成できます。
5天前
02850
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: AIとの低遅延自然音声対話

はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。
4週間前
02490
Muyan-TTS:个性化播客语音训练与合成

Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成

Synthesis Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースのテキスト音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3...をベースにしています。
4週間前
02200
CAD-MCP:通过自然语言指令控制CAD软件的MCP服务

CAD-MCP: CADソフトウェアを自然言語コマンドで制御するMCPサービス

概論 CAD-MCPはオープンソースプロジェクトであり、ユーザが自然言語コマンドによってCADソフトウェアを制御し、描画操作を行うことを可能にします。自然言語処理とCAD自動化技術を組み合わせ、ユーザーが手動でCADインターフェイスを操作する必要がなく、簡単なテキストコマンドを入力するだけで、CADソフトウェアを操作することができます。
4週間前
02280
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する

包括的な紹介 GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークであり、GitHubでホストされている。GraphGenは、知識グラフを通して合成データ生成を導くことによって、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。LLMは...
4週間前
01810
llm.pdf:在PDF文件中运行大型语言模型的实验项目

llm.pdf:大規模言語モデルをPDFファイルで実行する実験的プロジェクト

一般的な紹介 llm.pdfは、ユーザーが直接PDFファイルで大規模言語モデル(LLM)を実行できるようにするオープンソースプロジェクトです。EvanZhouDevによって開発され、GitHubでホストされているこのプロジェクトは、革新的なアプローチを示しています:Em...
4週間前
02090
Abogen:将多种文本格式转换为有声读物的工具

Abogen:複数のテキスト形式をオーディオブックに変換するツール

一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...
4週間前
01940
Local Deep Research:本地运行的生成深度研究报告工具

ローカル・ディープ・リサーチ:詳細な調査レポートを作成するためのローカルで実行可能なツール

一般的な紹介 Local Deep Research は、ユーザが深い研究を行い、複雑な問題に対する詳細なレポートを作成するために設計されたオープンソースの AI 研究アシスタントです。ローカルでの実行をサポートしており、ユーザーはクラウドサービスに依存することなく研究タスクを完了することができます。このツールは ...
4週間前
02220
Trackers:用于视频对象跟踪的开源工具库

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル(YOLO...
4週間前
02080
Kimi-Audio:开源音频处理与对话基础模型

Kimi-Audio:オープンソースの音声処理と対話ベースモデル

一般的な紹介 Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは130以上のテストが行われています。
4週間前
02270
Cooragent:一句话构建多智能体任务协作工具

Cooragent: マルチインテリジェンス・タスク・コラボレーション・ツールの構築

一般的な紹介 Cooragentは、清華大学のLeapLabによって開発され、GitHubでホストされているオープンソースのAIエージェントコラボレーションフレームワークです。ユーザーは、1文の記述でインテリジェントなAIエージェントを作成することができ、複雑なタスクで共同作業する複数のエージェントをサポートしています。このフレームワークは2つの...
4週間前
01980
InstantCharacter:从单张图片生成一致性角色的开源工具

InstantCharacter:単一の画像から一貫性のある文字を生成するオープンソースツール

概要 InstantCharacterは、Tencent HunyuanとInstantXチームによって開発されたオープンソースプロジェクトで、GitHubでホストされています。InstantCharacterは、参照画像とテキスト説明文を含む、一貫性のある文字マップを生成します。
4週間前
02150