飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: Strukturierte Informationsextraktion für komplexe Tabellen

Das Ziel der Tabellenerkennung besteht darin, Tabellen in Bildern zu analysieren, Tabellenstrukturen und Zellenpositionen genau zu identifizieren und sie in strukturierte Tabellenformate (z. B. HTML) zu reduzieren. Im heutigen Informationszeitalter liegt eine große Menge wichtiger Tabellendaten immer noch in unstrukturiertem Zustand vor (z. B. gescannte Dokumente mit Bildern von statistischen Tabellen).
vor 5 Monaten
01.3K
DisPose:生成人体姿态精准控制的视频,创作跳舞的小姐姐

DisPose: Erstellung von Videos mit präziser Kontrolle der menschlichen Körperhaltung, Erstellung von tanzenden Damen

Allgemeine Einführung DisPose ist ein innovatives Open-Source-Projekt für künstliche Intelligenz, das sich auf die kontrollierte Erzeugung von Charakterbildern konzentriert. Das Projekt wurde von einem Forscherteam entwickelt und auf GitHub veröffentlicht. Es nutzt fortschrittliche Deep-Learning-Techniken, um eine präzise Steuerung der Charakteranimation durch die Zerlegung von Skelettposeninformationen zu erreichen...
vor 7 Monaten
01.3K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung Zerox ist ein Open-Source-Projekt, das entwickelt wurde, um PDF, DOCX, Bilder und andere Dokumente durch visuelle Modelle in das Markdown-Format zu konvertieren. Das Projekt wird vom getomni-ai Team entwickelt und bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung....
vor 7 Monaten
01.3K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

LocalGPT: Gewährleistung des Datenschutzes durch Kommunikation mit mehreren Dokumenten auf lokalen Geräten

Allgemeine Einführung LocalGPT ist ein Open-Source-Projekt, das es Benutzern ermöglichen soll, mit Dokumenten auf lokalen Geräten zu kommunizieren und dabei den Datenschutz zu gewährleisten. Durch die Verwendung verschiedener Open-Source-Modelle kann LocalGPT Dokumenteninhalte verarbeiten und verstehen, ohne Daten in die Cloud hochzuladen. Das Projekt unterstützt eine Vielzahl von P...
vor 8 Monaten
01.3K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: Simplified Retrieval Enhanced Generation Framework, Entity Graph Index Recall Relevante Textblöcke

Eine umfassende Einführung MiniRAG ist ein extrem einfaches Retrieval Augmented Generation (RAG)-Framework, das darauf abzielt, eine gute RAG-Leistung auch für kleine Modelle durch heterogene Graphenindizierung und ein leichtgewichtiges topologieerweitertes Retrieval zu ermöglichen. Es wurde vom Data Science Laboratory der Universität von Hongkong (HKUDS) entwickelt, um ...
vor 7 Monaten
01.3K
Cosmos:世界基础模型,构建物理世界的人工智能基础模型平台

Cosmos: World Base Model, eine Plattform zur Erstellung von KI-Basismodellen der physischen Welt

Umfassende Einführung NVIDIA Cosmos ist eine weltbasierte Modellierungsplattform für Entwickler, die speziell darauf ausgerichtet ist, Physik-KI-Entwicklern zu helfen, ihre Physik-KI-Systeme besser und schneller zu entwickeln. Die Plattform bietet eine Reihe von vortrainierten Modellen, darunter diffusions- und autoregressionsbasierte...
vor 7 Monaten
01.3K
Open NotebookLM:将PDF转换为播客的开源工具

Open NotebookLM: PDF in Podcasts von Open-Source-Tools konvertieren

Allgemeine Einführung Open NotebookLM ist ein Open-Source-Projekt, das entwickelt wurde, um jedes PDF-Dokument in einen Podcast zu konvertieren. Das Tool verwendet quelloffene Large Language Model (LLM)- und Text-to-Speech (TTS)-Modelle zur Verarbeitung von PDF-Inhalten, um natürliche Dialoge zu erzeugen, die für Audio-Podcasts geeignet sind...
vor 6 Monaten
01.3K