Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: ein multimodales Audiomakromodell für einen End-to-End-Sprachdialog in Echtzeit, eine Open-Source-Implementierung der GPT-4o-Sprachinteraktion

综合介绍 Ultravox是一个创新的多模态大语言模型(LLM),专为实时语音处理而设计。与传统的语音识别系统不同,Ultravox无需单独的音频语音识别(ASR)阶段,能够直接将音频转换为高维空间中...
vor 6 Monaten
01.3K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: Erzeugen Sie ausdrucksstarke Sprechvideos mit einem einzigen Avatarbild!

DreamTalk Umfassende Einführung DreamTalk ist ein von der Tsinghua Universität, der Alibaba Gruppe und der Huazhong Universität für Wissenschaft und Technologie gemeinsam entwickeltes System zur Erzeugung von ausdrucksstarken Sprechern. Es besteht hauptsächlich aus drei Teilen: einem Netzwerk zur Rauschunterdrückung, einem Stilexperten für Lippen und einem Stilprädikator, der auf...
vor 6 Monaten
01.5K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...
vor 6 Monaten
01.2K
Director:智能视频代理框架,用自然语言描述执行视频搜索、编辑和生成工作流

Director: Intelligenter Video-Agent für die Durchführung von Video-Such-, -Bearbeitungs- und -Generierungs-Workflows mit natürlichsprachlichen Beschreibungen

Allgemeine Einführung Director ist ein Open-Source-Framework zur Vereinfachung und Optimierung von Videointeraktionen und -workflows durch den Aufbau intelligenter Videoagenten. Das Framework basiert auf der "Video-als-Daten"-Infrastruktur von VideoDB und ist in der Lage, komplexe Videoaufgaben wie das Suchen, Bearbeiten, Kompilieren und Generieren...
vor 6 Monaten
01K
Knowledge Graph Studio(WhyHow):创建和管理知识图谱的开源平台,RAG应用原生支持

Knowledge Graph Studio (WhyHow): Open-Source-Plattform zur Erstellung und Verwaltung von Wissensgraphen, mit nativer Unterstützung für RAG-Anwendungen

Umfassende Einführung Knowledge Graph Studio (KGS) ist eine Open-Source-Plattform, die den Prozess der Erstellung und Verwaltung von RAG-nativen Wissensgraphen vereinfachen soll. Die Plattform bietet regelbasierte Entitätsauflösung, modulare Graphkonstruktion, flexible...
vor 6 Monaten
01.3K