NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: Parsing komplexer Formatdokumente, Extraktion multimodaler Daten in Metadaten und Text

Umfassende Einführung NV Ingest (NVIDIA Ingest) ist eine Reihe von Microservices für den frühen Zugriff, die für das Parsen von Hunderttausenden von komplexen, unübersichtlichen unstrukturierten PDFs und anderen Unternehmensdokumenten entwickelt wurden. Sie kann diese Dokumente in Metadaten und Text umwandeln, um sie in Retrievalsysteme einzubetten...
vor 5 Monaten
01.1K0
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung Zerox ist ein Open-Source-Projekt, das entwickelt wurde, um PDF, DOCX, Bilder und andere Dokumente durch visuelle Modelle in das Markdown-Format zu konvertieren. Das Projekt wird vom getomni-ai Team entwickelt und bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung....
vor 4 Monaten
01K0
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: Lesen von Textdateien aus dem Git-Repository und schnelles Chunking für große Modelle

Allgemeine Einführung Yek ist ein schnelles Rust-basiertes Werkzeug zum Lesen von Textdateien aus Repositories oder Verzeichnissen, zum Chunking und zur Serialisierung für die Verwendung in Large Language Models (LLMs). Das Tool verwendet standardmäßig die .gitignore-Regel, um nicht benötigte Dateien zu überspringen, und verwendet...
vor 4 Monaten
09770
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: Werkzeuge zur Erkennung und Konvertierung von Bildformeln in Dokumenten, Unterstützung für die Konvertierung mehrerer Formate und hochpräzise Übersetzung

Umfassende Einführung Doc2X ist ein leistungsfähiges Dokument Bild Formel Erkennung und Konvertierung Tools, ist verpflichtet, effiziente und intelligente Lösungen für die Dokumentenverarbeitung. Ob es sich um eine akademische Forschungsarbeit, ein Lehrbuch, ein Unternehmensdokument oder einen Finanzbericht handelt, Doc2X kann PDF-Tabellen und...
vor 4 Monaten
09680
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...
vor 5 Monaten
09530
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: automatisierte Extraktion von Dokumentdaten, strukturierte Textextraktion aus verschiedenen Dokumenten

Allgemeine Beschreibung Parseur ist eine führende KI-Datenextraktionssoftware, die Benutzern hilft, automatisch Textdaten aus PDFs, E-Mails und anderen Dokumenten zu extrahieren. Mit Parseur können Benutzer unstrukturierte Daten leicht in strukturierte Daten umwandeln und sie an verschiedene Anwendungen senden...
vor 5 Monaten
09390
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Aufbau eines effizienten Systems zur verbesserten Generierung von HTML-Dokumenten, Optimierung des Abrufs und der Verarbeitung von HTML-Dokumenten in RAG-Systemen

综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...
vor 5 Monaten
09090