MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
8 meses atrás
01.6K0
Marker:快速将PDF转换为Markdown的开源工具

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.
3 meses atrás
01.6K0
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...
9 meses atrás
01.3K0