MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...
Il y a 8 mois
01.6K0
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse : analyse chaque type de document en données disponibles en LLM, en préservant toutes les informations du document, telles que les tableaux et les images, dans leur intégralité.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
Il y a 6 mois
01.5K0