MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU : extraction de documents PDF et conversion au format Markdown multimodal, prise en charge de la numérisation OCR des livres électroniques

综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...
Il y a 10 mois
01.9K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse : analyse chaque type de document en données disponibles en LLM, en préservant toutes les informations du document, telles que les tableaux et les images, dans leur intégralité.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
Il y a 8 mois
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun : une plateforme open source, sans code, qui explore automatiquement les données web et les convertit en API ou en feuilles de calcul.

综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
Il y a 7 mois
01.4K