Muyan-TTS:パーソナライズされたポッドキャストの音声トレーニングと合成
Synthesis Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースのテキスト音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3...をベースにしています。
CAD-MCP: CADソフトウェアを自然言語コマンドで制御するMCPサービス
概論 CAD-MCPはオープンソースプロジェクトであり、ユーザが自然言語コマンドによってCADソフトウェアを制御し、描画操作を行うことを可能にします。自然言語処理とCAD自動化技術を組み合わせ、ユーザーが手動でCADインターフェイスを操作する必要がなく、簡単なテキストコマンドを入力するだけで、CADソフトウェアを操作することができます。
Cotrans: ワンストップのマンガ画像翻訳機(オープンソース、無料)
包括的な導入漫画画像翻訳(Cotrans Translatorオープンソース版)テキスト内の漫画や画像を翻訳する。バッチ変換モード、ウェブサーバーモードや他の多様な使用オプションで、コマンドライン対話とオンラインデモを提供する...
GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する
包括的な紹介 GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークであり、GitHubでホストされている。GraphGenは、知識グラフを通して合成データ生成を導くことによって、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。LLMは...
ACI.DEV:MCPサーバーを介したAIインテリジェンスのための600以上のツールの統合
概論 ACI.devはオープンソースのインフラストラクチャプラットフォームで、AIインテリジェンスを600以上のツールに迅速に統合できるように設計されています。ACI.devは、Googleカレンダー、S...
llm.pdf:大規模言語モデルをPDFファイルで実行する実験的プロジェクト
一般的な紹介 llm.pdfは、ユーザーが直接PDFファイルで大規模言語モデル(LLM)を実行できるようにするオープンソースプロジェクトです。EvanZhouDevによって開発され、GitHubでホストされているこのプロジェクトは、革新的なアプローチを示しています:Em...
Abogen:複数のテキスト形式をオーディオブックに変換するツール
一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...
ローカル・ディープ・リサーチ:詳細な調査レポートを作成するためのローカルで実行可能なツール
一般的な紹介 Local Deep Research は、ユーザが深い研究を行い、複雑な問題に対する詳細なレポートを作成するために設計されたオープンソースの AI 研究アシスタントです。ローカルでの実行をサポートしており、ユーザーはクラウドサービスに依存することなく研究タスクを完了することができます。このツールは ...
DeepWiki:GitHubリポジトリのドキュメントの自動生成とAI対話の活用
概要 DeepWikiは、Cognition AIが提供する無料のツールで、GitHubリポジトリの構造化されたウィキペディアのようなドキュメントの生成に特化しています。コード、READMEファイル、設定ファイルを分析し、自動的に詳細な...
Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ
一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル(YOLO...