文档提取与清洗 | 第2页

organizar em ordem

postagem atualização passar por cima elogios

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

综合介绍 Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina...

7 meses atrás

01.4K

OmniParse: extrai quaisquer dados não estruturados de documentos/multimídia e os analisa em dados estruturados

综合介绍 OmniParse是一个强大的数据解析与优化平台，旨在将任何非结构化数据转换为结构化、可操作的数据，优化后适用于GenAI（生成式人工智能）框架。无论是处理文档、表格、图像、视频、音频文件还...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

01.4K

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

综合介绍 ExtractThinker 是一个灵活的文档智能工具，利用大型语言模型（LLMs）从文档中提取和分类结构化数据，提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器，包括 Tess...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

01.4K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Contornos: gerar saída de texto estruturado por meio de expressões regulares, JSON ou modelos Pydantic

综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库，旨在通过结构化文本生成来提升大语言模型（LLM）的应用能力。该库支持多种模型集成，包括 OpenAI、transformers...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

5 meses atrás

01.3K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

pdf2htmlEX: Conversão sem perdas de PDF para HTML, mantendo a formatação do texto, adequada para trabalhos acadêmicos e composição de revistas

综合介绍 pdf2htmlEX 是一个开源工具，旨在将 PDF 文件转换为 HTML 格式，通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

01.3K

Vision Parse: conversão inteligente de documentos PDF para o formato Markdown usando modelos de linguagem visual

综合介绍 Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

01.3K

TextIn: ferramenta universal de conversão de documentos, PDF para Markdown

综合介绍 TextIn是一款专业的PDF转Markdown工具，旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式，操作简单，转换速度快，能够保留原始PDF的格式和内容...

Ferramentas de IA mais recentes # Extração e limpeza de documentos

8 meses atrás

01.3K

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

综合介绍 NV Ingest（NVIDIA Ingest）是一套早期访问的微服务，专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本，以便嵌入到检索...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.3K

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

综合介绍 Zerox是一个开源项目，旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发，提供了简单高效的OCR（光学字符识别）解决方案。Ze...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.3K

E2M: Converta vários formatos de arquivo para Markdown e obtenha facilmente uma formatação uniforme do documento

综合介绍 E2M（Everything to Markdown）是一个开源的Python库，旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、u...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

01.3K

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

综合介绍 SemHash 是一个轻量级且灵活的工具，用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN（近似最近邻）相似性搜索。SemHa...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.2K

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

综合介绍 ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）是一个开源项目，旨在通...

Ferramentas de IA mais recentes # OCR # Extração e limpeza de documentos

8 meses atrás

01.2K

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).

综合介绍 LlamaParse 是一个强大的文档解析工具，能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格，并将其转换为结构化数据。LlamaParse 提供多种使用方式...

Ferramentas de IA mais recentes # Serviços abertos de IA # Extração e limpeza de documentos

6 meses atrás

01.2K

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

综合介绍 Yek 是一个基于 Rust 的快速工具，用于读取存储库或目录中的文本文件，将其分块并序列化以供大型语言模型（LLM）使用。该工具默认使用 .gitignore 规则跳过不需要的文件，并利用...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.2K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库，它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.2K

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

综合介绍 Parseur是一款领先的AI数据提取软件，旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur，用户可以轻松地将非结构化数据转换为结构化数据，并将其发送到各种应用...

Ferramentas de IA mais recentes # Extração e limpeza de documentos

6 meses atrás

01.1K

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl

综合介绍 Firecrawl MCP Server 是由 MendableAI 开发的一款开源工具，基于 Model Context Protocol (MCP) 协议实现，与 Firecrawl A...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java Serviços de MCP ## Extração e limpeza de documentos

4 meses atrás

01.1K

Trieve: uma infraestrutura de nuvem RAG de serviço completo que fornece pesquisa, recomendações e análises

综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施，专为搜索、推荐、RAG（检索增强生成）和分析而设计。该平台通过 API 提供服务，支持自托管，适用于 AWS、GCP、K...

Ferramentas de IA mais recentes # Serviços abertos de IA # Extração e limpeza de documentos

8 meses atrás

01.1K

olmOCR: conversão de documentos PDF em texto, suporte a tabelas, fórmulas e reconhecimento de conteúdo manuscrito

综合介绍 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具，专注于将 PDF 文件转...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

5 meses atrás

01.1K

Carregar mais