Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

Neueste AI-ToolsGeschrieben vor 5 Monaten Sharenet.ai

915 0

Allgemeine Einführung

Kreuzberg ist eine Bibliothek zur Vereinfachung der Textextraktion aus PDF-Dateien, entwickelt, um eine einfache, problemlose Lösung zur Textextraktion zu bieten. Die Bibliothek eignet sich besonders gut für RAG-Dienste (Retrieval-Augmented Generation), die eine Textextraktion erfordern.Kreuzberg unterstützt den lokalen Betrieb, ist einfach zu steuern und kostengünstig. Sie kombiniert eine Vielzahl von Open-Source- und kommerziellen Optionen, um flexible Textextraktionsmöglichkeiten zu bieten.

Funktionsliste

PDF-Text-ExtraktionExtrahieren von Textinhalten aus PDF-Dateien.
Bild/PDF OCRTesseract-OCR: Optische Zeichenerkennung von Bildern und PDFs mit Tesseract-OCR.
Extraktion von Nicht-PDF-TextPandoc: Extraktion von Text in anderen Formaten über Pandoc.
lokaler BetriebUnterstützt lokale Installation und Bedienung, einfache Steuerung und Verwaltung.
Quelloffen und kostenlos: Basiert auf der MIT-Lizenz, Open Source, kostenlos.

Hilfe verwenden

Einbauverfahren

Installation von Python-Paketen::

   pip install kreuzberg

Installation von Systemabhängigkeiten::
- Pandocfür Nicht-PDF-Textextraktion (GPL v2.0-Lizenz, nur als CLI verwendet).
- Tesseract-OCROCR für Bilder und PDFs (Apache-Lizenz).

Leitlinien für die Verwendung

Grundlegende Verwendung::
- Importieren Sie die Bibliothek und initialisieren Sie sie: python from kreuzberg import Kreuzberg extractor = Kreuzberg()
- PDF-Text extrahieren: python text = extractor.extract_text('path/to/pdf/file.pdf') print(text)
OCR-Funktion::
- OCR eines Bildes oder einer PDF-Datei: python ocr_text = extractor.ocr('path/to/image_or_pdf') print(ocr_text)
Extraktion von Nicht-PDF-Text::
- Verwenden Sie Pandoc, um Text in anderen Formaten zu extrahieren: python other_text = extractor.extract_text('path/to/other/file') print(other_text)

Detaillierte Funktionsabläufe

PDF-Text-Extraktion::
- Stellen Sie sicher, dass der Pfad der PDF-Datei korrekt ist.
- ausnutzenextract_textMethode, um den Text zu extrahieren.
- Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.
OCR-Funktion::
- Installieren und konfigurieren Sie Tesseract-OCR.
- ausnutzenocrMethode zur OCR-Verarbeitung von Bildern oder PDFs.
- OCR-Ergebnisse abrufen und verarbeiten.
Extraktion von Nicht-PDF-Text::
- Installieren und konfigurieren Sie Pandoc.
- ausnutzenextract_textMethode, um Text in anderen Formaten zu extrahieren.
- Verarbeiten Sie die extrahierten Textdaten für nachfolgende Operationen.

Durch die oben beschriebenen Schritte können die Benutzer leicht mit Kreuzberg Textextraktionsoperationen beginnen, um eine Vielzahl von Textverarbeitungsanforderungen zu erfüllen.

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.

Mehrere Dateien kostenlos in das Markdown-Format konvertieren, basierend auf Workers AI

Neueste AI-Tools # AI Java Open Source Projekt # Extraktion und Reinigung von Dokumenten

vor 4 Monaten

0760

Novelcrafter：专业小说创作工具，利用AI在创作各阶段提供构思和到成书

Novelcrafter: ein professionelles Tool zur Erstellung von Romanen, das mithilfe von künstlicher Intelligenz (KI) in allen Phasen der Erstellung und bis zur Fertigstellung des Buches Ideen liefert

Neueste AI-Tools # AI Schreiben

vor 10 Monaten

01.6K

LiveKit: ein Open-Source-Tool zur Erstellung von Audio- und Videoanwendungen in Echtzeit

Neueste AI-Tools # AI Offene Dienste

vor 4 Monaten

0777

99AI: Eine kommerzielle Webanwendung, die multimodale KI-Dienste integriert (kostenlos und quelloffen)

Neueste AI-Tools # AI Side Hustle Geldverdienen Projekt # AI Java Open Source Projekt # AI Lokalisierte Chat-Anwendung

vor 8 Monaten

01.5K

Keine Kommentare

Keine Kommentare...

Kreuzberg: Open-Source-Tool zum Extrahieren von Text aus beliebigen Dokumenten

Allgemeine Einführung

Funktionsliste