multi-model-bolt.new:基于 Bolt.new 的开源修改版,AI驱动的全栈开发工具

multi-model-bolt.new: modificación de código abierto basada en Bolt.new, herramientas de desarrollo de pila completa basadas en IA.

Descripción general multi-model-bolt.new es una versión modificada de Bolt.new que permite el uso de modelos TogetherAI, soportando características como el despliegue, la respuesta móvil y la entrada de voz. Los usuarios pueden ser solicitados directamente en el navegador, ejecutar...
hace 6 meses
01.6K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: un macromodelo multimodal de audio para el diálogo de voz en tiempo real de extremo a extremo, una implementación de código abierto de la interacción de voz GPT-4o

综合介绍 Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中...
hace 6 meses
01.3K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: herramienta para la sincronización labial de vídeo de alta calidad, optimizada para Wav2Lip

Introducción general Easy-Wav2Lip es una herramienta mejorada basada en Wav2Lip diseñada para simplificar el proceso de sincronización labial de vídeo. La herramienta ofrece una configuración e implementación más sencillas con soporte para Google Colab e instalación local. Mediante la optimización del algoritmo, Ea...
hace 6 meses
01.5K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: ¡Genera expresivos vídeos parlantes con una sola imagen de avatar!

DreamTalk Introducción DreamTalk es un marco de generación de cabezas parlantes basado en modelos de difusión y expresión desarrollado conjuntamente por la Universidad Tsinghua, Alibaba Group y la Universidad Huazhong de Ciencia y Tecnología. Consta principalmente de tres partes: una red de reducción de ruido, un experto en labios consciente del estilo y un predictor de...
hace 6 meses
01.5K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Marco completo de generación de vídeo humano digital | Retrato a vídeo | Pose a vídeo | Sincronización de labios

Introducción general MuseV es un proyecto público en GitHub cuyo objetivo es la generación de vídeo avatar de longitud ilimitada y alta fidelidad. Se basa en la tecnología de difusión y proporciona Image2Video, Text2Image2Video, Video2Video...
hace 6 meses
01.6K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking: sistema de sincronización labial y edición de vídeo basado en audio

Introducción general VideoReTalking es un sistema innovador que permite al usuario generar vídeos faciales sincronizados con los labios a partir del audio de entrada, produciendo vídeos de salida de alta calidad y sincronizados con los labios incluso con diferentes emociones. El sistema divide este objetivo en tres tareas consecutivas: con expresiones típicas...
hace 6 meses
01.3K
AgentClientDemo:演示智能体运行过程的Python客户端,提供直观的图形用户界面

AgentClientDemo: un cliente Python que demuestra el proceso de ejecución de un organismo inteligente, proporcionando una interfaz gráfica de usuario intuitiva.

综合介绍 AgentClientDemo 是一个集成了智能体(Agent)和客户端(Client)功能的综合性 Python 项目。该项目基于 PyQt 框架开发,提供了一个直观易用的图形用户界面(G...
hace 6 meses
0965
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...
hace 6 meses
01.2K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...
hace 6 meses
01.8K
Director:智能视频代理框架,用自然语言描述执行视频搜索、编辑和生成工作流

Director: marco de agentes de vídeo inteligentes para realizar flujos de trabajo de búsqueda, edición y generación de vídeo con descripciones en lenguaje natural.

综合介绍 Director 是一个开源框架,旨在通过构建智能视频代理来简化和优化视频交互和工作流程。该框架基于 VideoDB 的“视频即数据”基础设施,能够处理复杂的视频任务,如搜索、编辑、编译和生...
hace 6 meses
01K