OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...
7 meses atrás
01.2K0
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
8 meses atrás
01.6K0
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...
9 meses atrás
01.3K0