Kolors:生成高质量图像的文本到图像模型,支持生成中文海报

Kolors: modelo de texto para imagem para gerar imagens de alta qualidade, com suporte para gerar pôsteres em chinês

综合介绍 Kolors是由快手团队开发的大规模文本到图像生成模型,基于潜在扩散技术。该模型训练于数十亿对文本-图像数据对,能够生成高质量、复杂语义准确的图像,并支持中英文输入。Kolors在视觉质量...
6 meses atrás
01.1K
ColorFlow:漫画着色,黑白图像自动着色,提升图像色彩一致性和质量

ColorFlow: sombreamento de desenhos animados, sombreamento automático de imagens em preto e branco para melhorar a consistência e a qualidade da cor da imagem

综合介绍 ColorFlow是由腾讯ARC团队开发的图像序列自动着色工具,旨在解决黑白图像序列的自动着色问题。该工具利用检索增强的着色管道,通过参考图像池准确生成各种元素的颜色,包括角色的头发颜色和服...
6 meses atrás
01.2K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: ferramenta multifuncional para restauração e edição de imagens lançada pela Tencent ARC

Introdução abrangente O BrushEdit é uma ferramenta multifuncional de reparo e edição de imagens desenvolvida pela Tencent ARC Labs. A ferramenta é baseada na mais recente tecnologia de IA e é capaz de identificar e reparar automaticamente defeitos em imagens, além de oferecer suporte à edição interativa pelos usuários.
6 meses atrás
01K
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R: um sistema avançado de recuperação de IA (RAG) para análise de conteúdo multimodal e combinação de gráfico de conhecimento com pesquisa híbrida

综合介绍 R2R(RAG to Riches)是一个先进的AI检索系统,支持检索增强生成(RAG)功能,具备生产就绪的特性。该系统基于容器化的RESTful API构建,提供多模态内容解析、混合搜索功...
6 meses atrás
01.1K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

综合介绍 Infini-Megrez是由无问芯穹(Infinigence AI)开发的边缘智能解决方案,旨在通过软硬件协同设计,实现高效的多模态理解和分析。该项目的核心是Megrez-3B模型,支持图...
5 meses atrás
01K
GenEx:从一张图片生成可探索的360° 3D世界(代码逐步开源)

GenEx: geração de mundos 3D exploráveis em 360° a partir de uma única imagem (código progressivamente de código aberto)

综合介绍 GenEx 是一个先进的人工智能模型,能够从单张图像生成一个完全可探索的360° 3D世界。用户可以交互式地探索这个生成的世界。GenEx 推动了具象化人工智能在想象空间中的发展,并有潜力将...
6 meses atrás
01.1K
RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

RAGFlow: um mecanismo RAG de código aberto baseado na compreensão profunda de documentos, fornecendo fluxos de trabalho de geração aprimorados por recuperação eficientes

综合介绍 RAGFlow 是一个开源的检索增强生成(RAG)引擎,基于深度文档理解技术。它为各种规模的企业提供了一个高效的 RAG 工作流,结合了大型语言模型(LLM),能够提供基于复杂格式数据的真实...
5 meses atrás
01.6K
CrewAI:多角色扮演协作智能框架,简化复杂任务

CrewAI: uma estrutura de inteligência colaborativa para vários papéis para simplificar tarefas complexas

综合介绍 CrewAI 是一个先进的框架,旨在协调角色扮演和自主AI代理的协作。通过促进协作智能,CrewAI 使代理能够无缝协作,解决复杂任务。无论是构建智能助手平台、自动化客户服务团队,还是多代理...
6 meses atrás
01.3K
Leffa:高保真模特虚拟试穿与人物姿势调整,Meta开源的可控人物图像生成模型

Leffa: modelo de alta fidelidade, teste virtual e ajuste de pose de personagens, modelo de geração de imagens de personagens controlados com código aberto

Introdução abrangente O Leffa é uma estrutura unificada para gerar imagens de personagens controláveis, permitindo a manipulação precisa da aparência do personagem (por exemplo, ajuste virtual) e da pose (por exemplo, transferência de pose). A estrutura reduz significativamente a distorção de detalhes refinados, direcionando a consulta de destino para focar na chave de referência correta na camada de atenção, com...
6 meses atrás
01.5K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: geração de efeitos sonoros e trilhas sonoras sincronizadas para filmagens de vídeo, ferramenta de treinamento conjunto multimodal de vídeo para áudio

综合介绍 MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。该项目由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。MM...
6 meses atrás
01.5K
OpenChat:快速集成多数据源的自定义聊天机器人

OpenChat: Chatbots personalizados para integração rápida de várias fontes de dados

Introdução geral O OpenChat é um console de chatbot fácil de usar, projetado para simplificar o uso de LLMs (Large Language Models). Ao fornecer um processo de configuração em duas etapas, o OpenChat permite que os usuários criem e gerenciem facilmente vários chatbots personalizados. A plataforma é compatível com G...
5 meses atrás
01.1K