AI开源项目 | Sharenet

順番に並べる

Sim Studio: AIエージェントのためのオープンソースワークフロービルダー

包括的な紹介 Sim Studioは、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル（LLM）ワークフローの迅速な設計、テスト、およびデプロイを支援することに重点を置いた、オープンソースのAIエージェントワークフロー構築プラットフォームです。ドラッグ＆ドロップで複雑なワークフローを作成できます。

2ヶ月前

0591

マッド・プロフェッサー：学術論文の読解と分析を支援するAIツール

一般的な紹介 Mad Professor (Grumpy Professor Reads Papers) は、研究者や学生のために設計されたオープンソースのAI学術ツールで、学術論文の読み取りと分析を簡素化します。PDF処理、AI翻訳、RAG検索、AI質問...を統合しています。

2ヶ月前

0543

AIstudioProxyAPI：无限使用 Gemini 2.5 Pro 模型 API

AIstudioProxyAPI: Gemini 2.5 ProモデルAPIを無制限に使用可能

包括的な紹介 AIstudioProxyAPIは、Node.jsとPlaywright技術を使って、OpenAI APIをエミュレートするオープンソースプロジェクトである。

2ヶ月前

0615

Step1X-Edit：自然言語指示による画像編集のためのオープンソースツール

综合介绍 Step1X-Edit 是一个开源图像编辑框架，由 Stepfun AI 团队开发，托管于 GitHub。它结合多模态大语言模型（Qwen-VL）和扩散变换器（DiT），让用户通过简单的自然...

2ヶ月前

0506

Klavis AI: AIアプリケーションのためのモデルコンテキストプロトコル（MCP）統合ツール

概論 Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダードであるモデルコンテキストプロトコル（MCP）の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。

2ヶ月前

0500

RealtimeVoiceChat: AIとの低遅延自然音声対話

はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル（LLM）が音声を生成します。

2ヶ月前

0521

MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル

综合介绍 MiMo 是小米公司开发的一个开源大语言模型项目，专注于数学推理和代码生成。核心产品是 MiMo-7B 系列模型，包含基础模型 (Base)、监督微调模型 (SFT)、从基础模型训练的强化学...

最新のAIツール # AI Java オープンソースプロジェクト

2ヶ月前

0526

Muyan-TTS：パーソナライズされたポッドキャストの音声トレーニングと合成

Synthesis Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースのテキスト音声合成（TTS）モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3...をベースにしています。

2ヶ月前

0498

CAD-MCP: CADソフトウェアを自然言語コマンドで制御するMCPサービス

概論 CAD-MCPはオープンソースプロジェクトであり、ユーザが自然言語コマンドによってCADソフトウェアを制御し、描画操作を行うことを可能にします。自然言語処理とCAD自動化技術を組み合わせ、ユーザーが手動でCADインターフェイスを操作する必要がなく、簡単なテキストコマンドを入力するだけで、CADソフトウェアを操作することができます。

2ヶ月前

0585

GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する

包括的な紹介 GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークであり、GitHubでホストされている。GraphGenは、知識グラフを通して合成データ生成を導くことによって、大規模言語モデル（LLM）の教師ありファインチューニングを最適化することに焦点を当てている。LLMは...

2ヶ月前

0459

ACI.DEV：MCPサーバーを介したAIインテリジェンスのための600以上のツールの統合

概論 ACI.devはオープンソースのインフラストラクチャプラットフォームで、AIインテリジェンスを600以上のツールに迅速に統合できるように設計されています。ACI.devは、Googleカレンダー、S...

2ヶ月前

0537

llm.pdf：大規模言語モデルをPDFファイルで実行する実験的プロジェクト

一般的な紹介 llm.pdfは、ユーザーが直接PDFファイルで大規模言語モデル（LLM）を実行できるようにするオープンソースプロジェクトです。EvanZhouDevによって開発され、GitHubでホストされているこのプロジェクトは、革新的なアプローチを示しています：Em...

2ヶ月前

0489

Abogen：複数のテキスト形式をオーディオブックに変換するツール

一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...

2ヶ月前

0485

ローカル・ディープ・リサーチ：詳細な調査レポートを作成するためのローカルで実行可能なツール

一般的な紹介 Local Deep Research は、ユーザが深い研究を行い、複雑な問題に対する詳細なレポートを作成するために設計されたオープンソースの AI 研究アシスタントです。ローカルでの実行をサポートしており、ユーザーはクラウドサービスに依存することなく研究タスクを完了することができます。このツールは ...

2ヶ月前

0540

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル（YOLO...

2ヶ月前

0480

Kimi-Audio：オープンソースの音声処理と対話ベースモデル

一般的な紹介 Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは130以上のテストが行われています。

2ヶ月前

0522

Describe Anything: 画像やビデオ領域の詳細な説明を生成するオープンソースツール

一般的な説明 Describe AnythingはNVIDIAといくつかの大学によって開発されたオープンソースプロジェクトで、Describe Anything Model (DAM)を中核としています。このツールは、ユーザーの...

2ヶ月前

0438

Cooragent: マルチインテリジェンス・タスク・コラボレーション・ツールの構築

一般的な紹介 Cooragentは、清華大学のLeapLabによって開発され、GitHubでホストされているオープンソースのAIエージェントコラボレーションフレームワークです。ユーザーは、1文の記述でインテリジェントなAIエージェントを作成することができ、複雑なタスクで共同作業する複数のエージェントをサポートしています。このフレームワークは2つの...

2ヶ月前

0489

InstantCharacter：単一の画像から一貫性のある文字を生成するオープンソースツール

概要 InstantCharacterは、Tencent HunyuanとInstantXチームによって開発されたオープンソースプロジェクトで、GitHubでホストされています。InstantCharacterは、参照画像とテキスト説明文を含む、一貫性のある文字マップを生成します。

2ヶ月前

0505

AIオープンソースプロジェクト