文档提取与清洗 | 第2页

in Ordnung bringen

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...

Neueste AI-Tools # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

vor 7 Monaten

01.4K

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

综合介绍 OmniParse是一个强大的数据解析与优化平台，旨在将任何非结构化数据转换为结构化、可操作的数据，优化后适用于GenAI（生成式人工智能）框架。无论是处理文档、表格、图像、视频、音频文件还...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 8 Monaten

01.4K

ExtractThinker: Extrahieren und Kategorisieren von Dokumenten in strukturierte Daten, um den Prozess der Dokumentenbearbeitung zu optimieren

综合介绍 ExtractThinker 是一个灵活的文档智能工具，利用大型语言模型（LLMs）从文档中提取和分类结构化数据，提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器，包括 Tess...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 7 Monaten

01.4K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Umrisse: Generierung strukturierter Textausgaben über reguläre Ausdrücke, JSON oder Pydantic-Modelle

综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库，旨在通过结构化文本生成来提升大语言模型（LLM）的应用能力。该库支持多种模型集成，包括 OpenAI、transformers...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.3K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: Verlustfreie Konvertierung von PDF in HTML unter Beibehaltung der Textformatierung, geeignet für wissenschaftliche Arbeiten und Magazinsatz

综合介绍 pdf2htmlEX 是一个开源工具，旨在将 PDF 文件转换为 HTML 格式，通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 8 Monaten

01.3K

Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

综合介绍 Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 7 Monaten

01.3K

TextIn: Universelle Dokumentenkonvertierung, PDF zu Markdown Tool

综合介绍 TextIn是一款专业的PDF转Markdown工具，旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式，操作简单，转换速度快，能够保留原始PDF的格式和内容...

Neueste AI-Tools # Extraktion und Reinigung von Dokumenten

vor 8 Monaten

01.3K

NV Ingest: Parsing komplexer Formatdokumente, Extraktion multimodaler Daten in Metadaten und Text

Umfassende Einführung NV Ingest (NVIDIA Ingest) ist eine Reihe von Microservices für den frühen Zugriff, die für das Parsen von Hunderttausenden von komplexen, unübersichtlichen unstrukturierten PDFs und anderen Unternehmensdokumenten entwickelt wurden. Sie kann diese Dokumente in Metadaten und Text umwandeln, um sie in Retrievalsysteme einzubetten...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.3K

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung Zerox ist ein Open-Source-Projekt, das entwickelt wurde, um PDF, DOCX, Bilder und andere Dokumente durch visuelle Modelle in das Markdown-Format zu konvertieren. Das Projekt wird vom getomni-ai Team entwickelt und bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung....

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.3K

E2M: Konvertieren Sie mehrere Dateiformate in Markdown und erzielen Sie auf einfache Weise eine einheitliche Dokumentenformatierung.

Allgemeine Einführung E2M (Everything to Markdown) ist eine Open-Source-Python-Bibliothek, die eine Vielzahl von Dateiformaten in das Markdown-Format konvertieren kann. Das Tool unterstützt Formate wie doc, docx, epub, html, htm, u...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 7 Monaten

01.3K

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.2K

ViTLP: Extraktion von strukturierten Daten aus typografisch komplexen PDF-Dokumenten und visuell geführte Generierung von vortrainierten Modellen für das Textlayout

Umfassende Einführung ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) ist ein Open-Source-Projekt, das entwickelt wurde, um...

Neueste AI-Tools # OCR # Extraktion und Reinigung von Dokumenten

vor 8 Monaten

01.2K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: Hochwertiges Dokumenten-Parsing und Datenextraktionsdienst von Llamaindex (1000 kostenlose Seiten pro Tag).

Umfassende Einführung LlamaParse ist ein leistungsfähiges Dokument-Parsing-Tool, das komplexe Dokumente wie PDF-, PowerPoint-, Word-Dokumente und Tabellenkalkulationen verarbeiten und in strukturierte Daten umwandeln kann.LlamaParse bietet eine Vielzahl von...

Neueste AI-Tools # AI Offene Dienste # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.2K

Yek: Lesen von Textdateien aus dem Git-Repository und schnelles Chunking für große Modelle

Allgemeine Einführung Yek ist ein schnelles Rust-basiertes Werkzeug zum Lesen von Textdateien aus Repositories oder Verzeichnissen, zum Chunking und zur Serialisierung für die Verwendung in Large Language Models (LLMs). Das Tool verwendet standardmäßig die .gitignore-Regel, um nicht benötigte Dateien zu überspringen, und verwendet...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.2K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Ein einziges Stichwort für Web-Crawling, keine Notwendigkeit, Regeln zu schreiben intelligente Web-Content-Extraktionstools

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库，它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.2K

Parseur: automatisierte Extraktion von Dokumentdaten, strukturierte Textextraktion aus verschiedenen Dokumenten

Allgemeine Beschreibung Parseur ist eine führende KI-Datenextraktionssoftware, die Benutzern hilft, automatisch Textdaten aus PDFs, E-Mails und anderen Dokumenten zu extrahieren. Mit Parseur können Benutzer unstrukturierte Daten leicht in strukturierte Daten umwandeln und sie an verschiedene Anwendungen senden...

Neueste AI-Tools # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.1K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: Firecrawl-basierter Web Crawler MCP Dienst

Allgemeine Einführung Firecrawl MCP Server ist ein von MendableAI entwickeltes Open-Source-Tool, das auf der Implementierung des Model Context Protocol (MCP) basiert, mit Firecrawl A...

Neueste AI-Tools # AI Java Open Source Projekt # MCP-Dienste # Extraktion und Reinigung von Dokumenten

vor 4 Monaten

01.1K

Trieve: eine Full-Service-RAG-Cloud-Infrastruktur für Suche, Empfehlungen und Analysen

综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施，专为搜索、推荐、RAG（检索增强生成）和分析而设计。该平台通过 API 提供服务，支持自托管，适用于 AWS、GCP、K...

Neueste AI-Tools # AI Offene Dienste # Extraktion und Reinigung von Dokumenten

vor 8 Monaten

01.1K

olmOCR: Konvertierung von PDF-Dokumenten in Text, Unterstützung von Tabellen, Formeln und Erkennung handschriftlicher Inhalte

Allgemeine Einführung olmOCR ist ein Open-Source-Tool, das vom AllenNLP-Team am Allen Institute for Artificial Intelligence (AI2) entwickelt wurde und sich auf die Konvertierung von PDF-Dateien...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.1K

Mehr laden