LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: 音声から直接リップシンクされたビデオを生成するオープンソースツール

概要 LatentSyncはByteDanceによって開発され、GitHubでホストされているオープンソースツールです。動画内のキャラクターの唇の動きを音声を通して直接駆動し、口の形が音声と正確に一致するようにします。このプロジェクトは、Stable Di...
2ヶ月前
01.5K0
Morphik Core:处理多模态数据的开源 RAG 平台

Morphik Core:マルチモーダルデータ処理のためのオープンソースRAGプラットフォーム

一般的な紹介 Morphik Coreはmorphik-orgチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。以前はDataBridge Coreと呼ばれていましたが、現在はMorphik Coreに改名されています。
2ヶ月前
05390
Logome:快速生成专业品牌Logo的AI工具

ロゴーム:プロフェッショナルなブランドロゴを素早く生成するAIツール

概要 Logomeは、人工知能技術を使い、プロフェッショナルなブランドロゴを素早く作成できるオンラインプラットフォームである。起業家、中小企業、個人向けに設計されており、デザインの経験がなくても、ユニークなロゴと完全なブランドキットを生成することができます。ユーザーはブランド名とラインを入力するだけです。
2ヶ月前
04650
DeepPDF:PDF对话、总结和翻译工具

DeepPDF: PDF対話、要約、翻訳ツール

DeepPDFの包括的な紹介は、ユーザーがPDF文書、オンラインツールを扱うための人工知能の使用です。ユーザーがPDF文書と直接 "チャット "し、素早く情報を抽出し、要約を生成するだけでなく、文書を翻訳したり、画像や数式を分析することができます。このサイトの核となるのは...
2ヶ月前
06020
VirtualWife:支持B站直播和语音互动的二次元数字人

バーチャル・ワイフ:Bステーションのライブ・ストリーミングと音声インタラクションをサポートする第二のデジタル・パーソン

综合介绍 VirtualWife 是一个开源的虚拟数字人项目,由开发者 yakami129 创建。它目前处于孵化阶段,目标是打造一个有“灵魂”的虚拟角色,用户可以像朋友一样与之互动。项目支持 B站直播...
2ヶ月前
05140
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3:中国語音声と英語音声を合成する軽量モデル

包括的な紹介 MegaTTS3は、ByteDanceが浙江大学と共同で開発したオープンソースの音声合成ツールで、高品質な中国語と英語の音声を生成することに重点を置いています。MegaTTS3のコアモデルは、わずか0.45Bパラメータで、軽量かつ効率的です。このプロジェクトは ...
2ヶ月前
06870
KBLaM:为大模型嵌入外部知识的开源增强工具

KBLaM:大規模モデルに外部知識を埋め込むためのオープンソース拡張ツール

KBLaMはマイクロソフトによって開発されたオープンソースプロジェクトで、正式名称は「知識ベース拡張言語モデル」(Knowledge Base Augmented Language Model)である。これは、外部の知識をベクトルに変換し、大規模なモデルに埋め込むことで、...
2ヶ月前
05610
SumiNote:实时转录课堂笔记的AI学习工具

SumiNote:授業ノートをリアルタイムに書き写すAI学習ツール

概要 SumiNoteは上海楽普信網絡科技有限公司が開発した学生向けAI学習プラットフォームです。AI技術により、授業内容の記録、学習資料の整理、試験の復習、小論文の作成を支援する。このウェブサイトの中核機能は、教室での講義をリアルタイムで書き写すことである。
2ヶ月前
05420