OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten
Allgemeine Einführung
OmniParse ist eine leistungsstarke Plattform zum Parsen und Optimieren von Daten, mit der unstrukturierte Daten in strukturierte, verwertbare Daten umgewandelt werden können, die für GenAI-Frameworks (Generative Artificial Intelligence) optimiert sind. Ob Sie mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder Webinhalten arbeiten, OmniParse macht Ihre Daten sauber, strukturiert und bereit für KI-Anwendungen wie RAG (Retrieval Augmented Generation) und Feinabstimmung.

- Open-Source-Demo-Adresse: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
Funktionsliste
- Vollständig lokalisiert, keine externe API erforderlich
- Für T4-GPUs
- Unterstützt etwa 20 Dateitypen
- Konvertierung von Dokumenten, Multimedia und Webseiten in hochwertiges strukturiertes Markdown
- Tabellenextraktion, Bildextraktion/Untertitelung, Audio-/Videotranskription, Webcrawling
- Einfache Bereitstellung mit Docker und Skypilot
- Freundliche Colab-Umgebung
- Interaktive Benutzeroberfläche mit Gradio
Hilfe verwenden
Einbauverfahren
- Klon-Lager::
git clone https://github.com/adithya-s-k/omniparse cd omniparse
- Erstellen einer virtuellen Umgebung::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv
- Installation von Abhängigkeiten::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Docker verwenden
- Abrufen von OmniParse API-Images von Docker Hub::
docker pull savatar101/omniparse:0.1
- Starten Sie den Docker-Container und geben Sie Port 8000 frei.::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
Operationsserver
- Starten Sie den Server::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
Laden aller Modelle, die beim Parsen und Einlesen von Dokumenten helfen (z. B. die Surya OCR-Modellfamilie und Florence-2).--media
Laden Sie Whisper-Modelle, um Audio- und Videodateien zu transkribieren.--web
Einrichten des Selenium-Crawlers.
Unterstützte Datentypen
- (Computer-)Datei::
.doc
,.docx
,.pdf
,.ppt
,.pptx
- Bildmaterial::
.png
,.jpg
,.jpeg
,.tiff
,.bmp
,.heic
- Video::
.mp4
,.mkv
,.avi
,.mov
- Tonfrequenz::
.mp3
,.wav
,.aac
- Web-Seite: dynamische Webseiten.
http://.com
Anwendungsbeispiel
- Dokumentenauflösung::
python server.py --host 0.0.0.0 --port 8000 --documents
Dadurch werden alle Modelle für das Parsen von Dokumenten geladen, die bereit sind, Daten des Dokumenttyps zu verarbeiten.
- Multimedia-Parsing::
python server.py --host 0.0.0.0 --port 8000 --media
Dadurch wird das Whisper-Modell geladen und ist bereit, Audio- und Videodateien zu verarbeiten.
- Web-Crawler::
python server.py --host 0.0.0.0 --port 8000 --web
Dadurch wird der Selenium-Crawler eingerichtet und ist bereit, Webinhalte zu verarbeiten.
© urheberrechtliche Erklärung
Der Artikel ist urheberrechtlich geschützt und darf nicht ohne Genehmigung vervielfältigt werden.
Ähnliche Artikel
Keine Kommentare...