LOADING

Extraktion und Reinigung von Dokumenten

Insgesamt 67 Artikel

in Ordnung bringen

Beitrag Update überfliegen Anerkennung

SemHash：快速实现语义文本去重，提升数据清理效率

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

09610

Parseur：自动化提取文档数据，各类文档中提取结构化文本

Parseur: automatisierte Extraktion von Dokumentdaten, strukturierte Textextraktion aus verschiedenen Dokumenten

Allgemeine Beschreibung Parseur ist eine führende KI-Datenextraktionssoftware, die Benutzern hilft, automatisch Textdaten aus PDFs, E-Mails und anderen Dokumenten zu extrahieren. Mit Parseur können Benutzer unstrukturierte Daten leicht in strukturierte Daten umwandeln und sie an verschiedene Anwendungen senden...

Neueste AI-Tools # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

09430

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Ein einziges Stichwort für Web-Crawling, keine Notwendigkeit, Regeln zu schreiben intelligente Web-Content-Extraktionstools

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库，它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

09210

NV Ingest：解析复杂格式文档，提取多模态数据为元数据和文本

NV Ingest: Parsing komplexer Formatdokumente, Extraktion multimodaler Daten in Metadaten und Text

Umfassende Einführung NV Ingest (NVIDIA Ingest) ist eine Reihe von Microservices für den frühen Zugriff, die für das Parsen von Hunderttausenden von komplexen, unübersichtlichen unstrukturierten PDFs und anderen Unternehmensdokumenten entwickelt wurden. Sie kann diese Dokumente in Metadaten und Text umwandeln, um sie in Retrievalsysteme einzubetten...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.1K0

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）

Trellis: unstrukturierte Dokumente in strukturierte Daten im EXCEL-Format umwandeln, PDF schnell in Form bringen (kostenpflichtig)

Allgemeine Einführung Trellis ist eine Datenplattform, die sich auf die Umwandlung komplexer unstrukturierter Datenquellen in strukturierte SQL-Formate konzentriert. Durch seine leistungsstarke KI-Engine ist Trellis in der Lage, eine breite Palette von Datenquellen wie Finanzdokumente, Sprachanrufe und E-Mails zu verarbeiten und in Daten zu konvertieren, die...

Neueste AI-Tools # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

08350

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug

综合介绍文本提取API（text-extract-api）是一个强大的工具，旨在从各种文档格式（如PDF、Word、PPTX等）中提取和解析内容。该API利用最先进的光学字符识别（OCR）技术和Ol...

Neueste AI-Tools # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.3K0

Ollama OCR：使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Strea...

Neueste AI-Tools # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

02K0

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

llms.txt Generator: Schnelles Erfassen von Website-Inhalten und Generieren von LLM-Trainingstext-Datensätzen.

综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具，专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发，采用 @firec...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.2K0

ExtractThinker：提取和分类文档为结构化数据，优化文档处理流程

ExtractThinker: Extrahieren und Kategorisieren von Dokumenten in strukturierte Daten, um den Prozess der Dokumentenbearbeitung zu optimieren

综合介绍 ExtractThinker 是一个灵活的文档智能工具，利用大型语言模型（LLMs）从文档中提取和分类结构化数据，提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器，包括 Tess...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.1K0

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG: Aufbau eines effizienten Systems zur verbesserten Generierung von HTML-Dokumenten, Optimierung des Abrufs und der Verarbeitung von HTML-Dokumenten in RAG-Systemen

综合介绍 HtmlRAG是一个创新的开源项目，专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法，认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...

Neueste AI-Tools # Extraktion und Reinigung von Dokumenten # Wissensabfrage und RAG-Rahmen

vor 5 Monaten

09160

Maxun：开源无代码平台，自动抓取网页数据并转换为API或电子表格

Maxun: eine Open-Source-Plattform ohne Code, die automatisch Webdaten durchsucht und sie in APIs oder Tabellenkalkulationen umwandelt

综合介绍 Maxun是一个开源的无代码网页数据提取平台，用户可以在几分钟内训练机器人，自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动，能够适应网站布局的变化，提供强大的数据抓取功能...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.2K0

Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

综合介绍 Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 5 Monaten

01.1K0

MarkItDown：微软文档智能转换工具，转换各种文件为Markdown格式

MarkItDown: Microsoft Document Intelligent Conversion Tool, konvertiert verschiedene Dateien in das Markdown-Format

综合介绍 MarkItDown是由微软开发的一个Python工具，旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型，包括PDF、PowerPoint、Word、Excel、图...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.7K0

Chunkr：使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

综合介绍 Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina...

Neueste AI-Tools # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.1K0

GitIngest：快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Schnelle Konvertierung von Github-Code-Repositories in Text, der für LLM-Verständnis geeignet ist

综合介绍 GitIngest 是一个开源工具，旨在将 GitHub 代码库转化为适合大语言模型（LLM）提示的文本。通过简单的操作，用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.7K0

E2M：将多种文件格式转换为Markdown，轻松实现文档格式统一

E2M: Konvertieren Sie mehrere Dateiformate in Markdown und erzielen Sie auf einfache Weise eine einheitliche Dokumentenformatierung.

综合介绍 E2M（Everything to Markdown）是一个开源的Python库，旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、u...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01K0

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: Unterstützung für eine Vielzahl von Formaten, Dokumentenparsing und Export als Markdown und JSON, PDF-Unterstützung OCR

综合介绍 Docling 是一个强大的文档解析和导出工具，支持多种文档格式，包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...

Neueste AI-Tools # AI Java Open Source Projekt # OCR # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.8K0

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具，专为大语言模型（LLM）的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档，MegaPar...

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01.5K0

ViTLP：排版复杂PDF文档提取结构化数据，视觉引导生成文本布局预训练模型

ViTLP: Extraktion von strukturierten Daten aus typografisch komplexen PDF-Dokumenten und visuell geführte Generierung von vortrainierten Modellen für das Textlayout

综合介绍 ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）是一个开源项目，旨在通...

Neueste AI-Tools # OCR # Extraktion und Reinigung von Dokumenten

vor 6 Monaten

01K0