LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...
2ヶ月前
01.5K0
Morphik Core:处理多模态数据的开源 RAG 平台

Morphik Core:マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。
2ヶ月前
05250
VirtualWife:支持B站直播和语音互动的二次元数字人

バーチャル・ワイフ:Bステーションのライブ・ストリーミングと音声インタラクションをサポートする第二のデジタル・パーソン

综合介绍 VirtualWife 是一个开源的虚拟数字人项目,由开发者 yakami129 创建。它目前处于孵化阶段,目标是打造一个有“灵魂”的虚拟角色,用户可以像朋友一样与之互动。项目支持 B站直播...
2ヶ月前
05020
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...
2ヶ月前
06680
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」(Knowledge Base Augmented Language Model)である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...
2ヶ月前
05490
BrowserTools MCP:实时监控浏览器活动的MCP服务

BrowserTools MCP: ブラウザの動作をリアルタイムで監視するMCPサービス

概要 BrowserTools MCPは、AgentDeskAIチームによって開発されたオープンソースプロジェクトです。AIがChromeエクステンションとNode.jsサービスを通じて、ログ、ネットワークリクエスト、ブラウザアクティビティをリアルタイムで監視することを可能にします。
2ヶ月前
06500
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: 知的エージェントによる科学研究の全プロセスを完了するオープンソースツール

一般的な紹介 AgentLaboratoryはGitHubでホストされているオープンソースツールで、Samuel Schmidgallによって開発されました。大規模言語モデル(LLM)によって駆動されるインテリジェントエージェントを使用し、研究者の科学的...
2ヶ月前
04640
Kilo Code:具有简洁使用体验的Roo Code分支

キロ・コード:クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介 キロコードは、Visual Studio Code(略してVS Code)のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。
2ヶ月前
05370
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: AIインテリジェンスの柔軟な接続と管理のためのオープンソースツール

综合介绍 AgentIQ 是 NVIDIA 推出的一款开源工具,旨在帮助开发者高效连接和管理 AI 智能体。它能让不同框架的智能体无缝协作,连接企业数据和工具,像调用函数一样构建工作流。这个工具的最大...
2ヶ月前
04910
MIDI-3D:从单张图片快速生成多物体3D场景的开源工具

MIDI-3D: 1枚の画像からマルチオブジェクトの3Dシーンを高速生成するオープンソースツール

一般的な紹介 MIDI-3DはVAST-AI-Researchチームによって開発されたオープンソースプロジェクトで、開発者、研究者、クリエイターのために1つの画像から複数のオブジェクトを含む3Dシーンを素早く生成します。このツールはマルチインスタンス拡散モデリング技術に基づいています。
2ヶ月前
05770
TripoSF:快速生成高分辨率3D模型的实用工具

TripoSF:高解像度3Dモデルを迅速に生成する実用的なツール

概論 TripoSFはVAST-AI-Researchチームによって構築されたオープンソースプロジェクトで、特に1枚の画像から高解像度の3Dモデルを素早く生成するように設計されています。SparseFlexと呼ばれる技術を使用しており、処理効率が高く、一般的な...
2ヶ月前
05340
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...
2ヶ月前
05290
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
2ヶ月前
05040