Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...
vor 7 Monaten
01.4K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: Parsing komplexer Formatdokumente, Extraktion multimodaler Daten in Metadaten und Text

Umfassende Einführung NV Ingest (NVIDIA Ingest) ist eine Reihe von Microservices für den frühen Zugriff, die für das Parsen von Hunderttausenden von komplexen, unübersichtlichen unstrukturierten PDFs und anderen Unternehmensdokumenten entwickelt wurden. Sie kann diese Dokumente in Metadaten und Text umwandeln, um sie in Retrievalsysteme einzubetten...
vor 6 Monaten
01.3K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung Zerox ist ein Open-Source-Projekt, das entwickelt wurde, um PDF, DOCX, Bilder und andere Dokumente durch visuelle Modelle in das Markdown-Format zu konvertieren. Das Projekt wird vom getomni-ai Team entwickelt und bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung....
vor 6 Monaten
01.3K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...
vor 6 Monaten
01.2K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: Lesen von Textdateien aus dem Git-Repository und schnelles Chunking für große Modelle

Allgemeine Einführung Yek ist ein schnelles Rust-basiertes Werkzeug zum Lesen von Textdateien aus Repositories oder Verzeichnissen, zum Chunking und zur Serialisierung für die Verwendung in Large Language Models (LLMs). Das Tool verwendet standardmäßig die .gitignore-Regel, um nicht benötigte Dateien zu überspringen, und verwendet...
vor 6 Monaten
01.2K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: automatisierte Extraktion von Dokumentdaten, strukturierte Textextraktion aus verschiedenen Dokumenten

Allgemeine Beschreibung Parseur ist eine führende KI-Datenextraktionssoftware, die Benutzern hilft, automatisch Textdaten aus PDFs, E-Mails und anderen Dokumenten zu extrahieren. Mit Parseur können Benutzer unstrukturierte Daten leicht in strukturierte Daten umwandeln und sie an verschiedene Anwendungen senden...
vor 6 Monaten
01.1K