Kolors:生成高质量图像的文本到图像模型,支持生成中文海报

Kolors:生成高质量图像的文本到图像模型,支持生成中文海报

综合介绍 Kolors是由快手团队开发的大规模文本到图像生成模型,基于潜在扩散技术。该模型训练于数十亿对文本-图像数据对,能够生成高质量、复杂语义准确的图像,并支持中英文输入。Kolors在视觉质量...
Il y a 6 mois
01.1K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow : ombrage de dessins animés, ombrage automatique des images en noir et blanc pour améliorer la cohérence et la qualité des couleurs de l'image

综合介绍 ColorFlow是由腾讯ARC团队开发的图像序列自动着色工具,旨在解决黑白图像序列的自动着色问题。该工具利用检索增强的着色管道,通过参考图像池准确生成各种元素的颜色,包括角色的头发颜色和服...
Il y a 6 mois
01.2K
RapBank:根据歌词和伴奏直接生成说唱(Rap)人声的模型(目前开放了数据集)

RapBank : un modèle pour générer directement des voix de rap à partir de paroles et de pistes d'accompagnement (jeu de données actuellement ouvert)

Introduction générale RapBank est un ensemble de données et d'outils conçus pour la génération de paroles de rap. Le projet a été créé par NZqian pour fournir aux chercheurs et aux développeurs des données de haute qualité sur les paroles de rap en collectant et en traitant les chansons de rap de YouTube...
Il y a 6 mois
01.1K
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R : un système de recherche avancée d'IA (RAG) pour l'analyse de contenu multimodal et la combinaison de graphes de connaissances avec la recherche hybride

Introduction complète R2R (RAG to Riches) est un système de recherche IA avancé qui prend en charge la fonctionnalité Retrieval Augmented Generation (RAG) avec des caractéristiques prêtes à la production. Construit sur une API RESTful conteneurisée, le système fournit une analyse multimodale du contenu, une fonctionnalité de recherche hybride...
Il y a 6 mois
01.1K
Porkybank:AI驱动的日常预算管理,轻松追踪每日预算

Porkybank : gestion du budget quotidien alimentée par l'IA pour un suivi facile des budgets quotidiens

Description générale Porkybank est une application open source de gestion des finances personnelles conçue pour aider les utilisateurs à suivre facilement leur budget quotidien. Avec une formule simple (revenus - dépenses) / jours = argent liquide, les utilisateurs peuvent visualiser leur situation financière. Le projet est hébergé sur GitHu...
il y a 5 mois
01K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa : Ajustement virtuel de modèle haute fidélité et ajustement de la pose du personnage, modèle de génération d'image de personnage contrôlable Meta open source

Introduction Leffa est un cadre unifié pour la génération d'images de personnages contrôlables, permettant une manipulation précise de l'apparence du personnage (par exemple, l'ajustement virtuel) et de la pose (par exemple, le transfert de la pose). Le cadre réduit considérablement la distorsion des détails les plus fins en orientant la requête cible vers la clé de référence correcte dans la couche d'attention, avec...
Il y a 6 mois
01.5K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio : génération d'effets sonores synchronisés et de bandes sonores pour des séquences vidéo, outil de coformation multimodale vidéo/audio

Introduction générale MMAudio est un projet open source visant à générer un son synchronisé de haute qualité par le biais d'une formation multimodale conjointe. Développé par Ho Kei Cheng et al. à l'Université chinoise de Hong Kong, la fonction principale du projet est de générer de l'audio synchronisé à partir d'une vidéo et/ou d'un texte....
Il y a 6 mois
01.5K