OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...
7 meses atrás
01.1K0
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...
6 meses atrás
01.1K0
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...
4 meses atrás
09690
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...
5 meses atrás
09140
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Otimizando a recuperação e o processamento de documentos HTML em sistemas RAG

综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...
5 meses atrás
09100