MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
10 meses atrás
01.9K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório no formato Markdown. A ferramenta é compatível com uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, diagramas...
7 meses atrás
01.9K
Marker:快速将PDF转换为Markdown的开源工具

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.
5 meses atrás
01.9K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
8 meses atrás
01.7K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...
11 meses atrás
01.5K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...
6 meses atrás
01.4K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
7 meses atrás
01.4K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, um livro didático, um documento corporativo ou um relatório financeiro, o Doc2X pode identificar com precisão tabelas e...
6 meses atrás
01.4K