Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: Werkzeuge zur Erkennung und Konvertierung von Bildformeln in Dokumenten, Unterstützung für die Konvertierung mehrerer Formate und hochpräzise Übersetzung

Umfassende Einführung Doc2X ist ein leistungsfähiges Dokument Bild Formel Erkennung und Konvertierung Tools, ist verpflichtet, effiziente und intelligente Lösungen für die Dokumentenverarbeitung. Ob es sich um eine akademische Forschungsarbeit, ein Lehrbuch, ein Unternehmensdokument oder einen Finanzbericht handelt, Doc2X kann PDF-Tabellen und...
vor 6 Monaten
01.4K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Aufbau eines effizienten Systems zur verbesserten Generierung von HTML-Dokumenten, Optimierung des Abrufs und der Verarbeitung von HTML-Dokumenten in RAG-Systemen

综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...
vor 7 Monaten
01.1K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...
vor 7 Monaten
01.5K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: eine Open-Source-Plattform ohne Code, die automatisch Webdaten durchsucht und sie in APIs oder Tabellenkalkulationen umwandelt

综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
vor 7 Monaten
01.4K