文档提取与清洗

organizar em ordem

postagem atualização passar por cima elogios

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Strea...

6 meses atrás

02.2K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

综合介绍 Docling 是一个强大的文档解析和导出工具，支持多种文档格式，包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

7 meses atrás

02.2K

GitIngest: Converta rapidamente repositórios de código do Github em texto adequado para compreensão do LLM

综合介绍 GitIngest 是一个开源工具，旨在将 GitHub 代码库转化为适合大语言模型（LLM）提示的文本。通过简单的操作，用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

02K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

10 meses atrás

01.9K

MarkItDown: Ferramenta de conversão inteligente de documentos da Microsoft, converte vários arquivos para o formato Markdown

Introdução geral O MarkItDown é uma ferramenta Python desenvolvida pela Microsoft e projetada para converter vários arquivos e documentos de escritório no formato Markdown. A ferramenta é compatível com uma ampla variedade de tipos de arquivos, incluindo PDF, PowerPoint, Word, Excel, diagramas...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

01.9K

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

5 meses atrás

01.9K

Mathpix: software de conversão estruturada de documentos PDF e imagens, suporte para multiterminais

综合介绍 Mathpix 是一款强大的 AI 驱动文档自动化工具，专为科研人员、开发者和企业设计。它能够快速准确地将 PDF 和图像转换为可搜索、可导出和机器可读的文本。Mathpix 提供了多种功能...

Ferramentas de IA mais recentes # Serviços abertos de IA # Extração e limpeza de documentos

11 meses atrás

01.8K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

综合介绍 MegaParse 是一个强大且多功能的文件解析工具，专为大语言模型（LLM）的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档，MegaPar...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

8 meses atrás

01.7K

API do Reader: ferramenta de extração de conteúdo da Web, conversão de HTML para Markdown

综合介绍 Jina AI的Reader项目是一个开源工具（Reader 开源地址），可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Languag...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

10 meses atrás

01.7K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

综合介绍 Datalab 提供了一系列先进的AI模型，专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越，而且易于使用，并且是开源的。平台上的Marker模型可以快速准确地将...

Ferramentas de IA mais recentes # Serviços abertos de IA # Projeto de código aberto AI Java # OCR

8 meses atrás

01.6K

GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento

综合介绍 GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具，托管在 GitHub 上。它通过输入一个或多个网站 URL，爬取页面内容，生成结构化的知识文件（output.jso...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

1 mês atrás

01.6K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

综合介绍文本提取API（text-extract-api）是一个强大的工具，旨在从各种文档格式（如PDF、Word、PPTX等）中提取和解析内容。该API利用最先进的光学字符识别（OCR）技术和Ol...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # OCR # Extração e limpeza de documentos

6 meses atrás

01.5K

Chonkie: uma biblioteca leve de fragmentação de texto RAG

综合介绍 Chonkie 是一个轻量级且高效的 RAG（Retrieval-Augmented Generation）文本切块库，旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法，包...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

5 meses atrás

01.5K

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

综合介绍 Unstructured-IO 提供了一系列开源组件，用于处理和预处理图像和文本文档，如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程，特别是为大语言模型（LL...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

11 meses atrás

01.5K

Parsio: extraia automaticamente os principais dados estruturados de PDFs, e-mails e outros documentos

综合介绍 Parsio 是一款基于 AI 技术的文档和邮件数据提取工具，能够自动从 PDF、电子邮件及其他文档中提取结构化数据。该平台提供强大的 PDF 解析器和 OCR 功能，支持多种文档类型，包括...

Ferramentas de IA mais recentes # Extração e limpeza de documentos

8 meses atrás

01.5K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.4K

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes

综合介绍 Repomix（前称Repopack）是一款开源工具，专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型（如Claude、Chat...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

6 meses atrás

01.4K

Maxun: uma plataforma de código aberto, sem código, que rastreia automaticamente os dados da Web e os converte em APIs ou planilhas

综合介绍 Maxun是一个开源的无代码网页数据提取平台，用户可以在几分钟内训练机器人，自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动，能够适应网站布局的变化，提供强大的数据抓取功能...

Ferramentas de IA mais recentes # Projeto de código aberto AI Java # Extração e limpeza de documentos

7 meses atrás

01.4K

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, um livro didático, um documento corporativo ou um relatório financeiro, o Doc2X pode identificar com precisão tabelas e...

Ferramentas de IA mais recentes # Serviços abertos de IA Tradução de IA ## Extração e limpeza de documentos

6 meses atrás

01.4K

Carregar mais