CARREGAMENTO

Sharenet
  • Tutoriais práticos de IA
  • Comandos do utilitário de IA
  • Informações sobre o curso
  • Base de conhecimento de IA
  • Respostas da IA
  • Quero contribuir
    • Principais recomendações de IA
    • Ferramentas de IA mais recentes
    • Redação de artigos sobre IA
    • Geração de imagens com IA
    • Ferramentas de vídeo com IA
    • Eficiência de escritório com IA
    • Ferramentas de programação de IA
    • Ferramentas de design de IA
    • Assistente de bate-papo com IA
    • Inteligência de IA

    Extração e limpeza de documentos

    Total de 67 artigos
    organizar em ordem
    postagematualizaçãopassar por cimaelogios
    UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

    UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

    综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术,自动识别文档布局,分类表格、图像、公式和文本,极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间...
    Ferramentas de IA mais recentes# Serviços abertos de IA# Extração e limpeza de documentos
    5 meses atrás
    08580
    olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别

    olmOCR: conversão de documentos PDF em texto, suporte a tabelas, fórmulas e reconhecimento de conteúdo manuscrito

    综合介绍 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,专注于将 PDF 文件转...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    3 meses atrás
    08480
    Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务

    Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl

    综合介绍 Firecrawl MCP Server 是由 MendableAI 开发的一款开源工具,基于 Model Context Protocol (MCP) 协议实现,与 Firecrawl A...
    Ferramentas de IA mais recentes# Projeto de código aberto AI JavaServiços de MCP ## Extração e limpeza de documentos
    3 meses atrás
    08360
    Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

    Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

    综合介绍 Trellis是一款专注于将复杂的非结构化数据源转换为结构化SQL格式的数据平台。通过其强大的AI引擎,Trellis能够处理金融文档、语音通话和电子邮件等多种数据源,并将其转换为可供数据和...
    Ferramentas de IA mais recentes# Extração e limpeza de documentos
    5 meses atrás
    08330
    AI Functions:将输入内容转换为结构化输出的(API)服务

    Funções de IA: um serviço (API) para converter conteúdo de entrada em saídas estruturadas

    综合介绍 Weco AI Functions 是一个强大的平台,旨在帮助用户快速构建和部署AI功能。通过简单的描述任务,用户可以生成结构化的输出模式,并进行A/B测试和观察性监控。该平台支持无代码原型...
    Ferramentas de IA mais recentes# Serviços abertos de IA# Extração e limpeza de documentos
    4 meses atrás
    08020
    PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

    PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto

    综合介绍 PDF-Extract-Kit 是一个由 OpenDataLab 团队开发的开源项目,专注于从复杂多样的 PDF 文档中高效提取高质量内容。它集成了先进的文档解析技术,支持布局检测、公式识别...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    3 meses atrás
    07690
    Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式

    Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

    综合介绍 Markdownify MCP Server 是一个基于 Model Context Protocol(模型上下文协议)的开源工具,托管于 GitHub,由开发者 Zach Caceres ...
    Ferramentas de IA mais recentes# Projeto de código aberto AI JavaServiços de MCP ## Extração e limpeza de documentos
    3 meses atrás
    07330
    Kreuzberg:从任何文档中提取文本的开源工具

    Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento

    综合介绍 Kreuzberg是一个用于简化PDF文件文本提取的库,旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG(Retrieval-Augmented Generatio...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    4 meses atrás
    07210
    Instructor:简化大语言模型结构化输出工作流的Python库

    Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem

    综合介绍 Instructor 是一个流行的 Python 库,专为处理大语言模型(LLMs)的结构化输出而设计。它基于 Pydantic 构建,提供了一个简单、透明且用户友好的 API,用于管理数据...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    4 meses atrás
    07160
    Rowfill:批量提取文档结构化信息并自动化分析

    Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada

    综合介绍 Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和Ope...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Análise de dados de IA# Extração e limpeza de documentos
    4 meses atrás
    07080
    Pulse:文档处理与数据提取的商业解决方案

    Pulse: Soluções de negócios para processamento de documentos e extração de dados

    综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台,旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术,Pulse 能够准确地从文本、图像、表格等多种...
    Ferramentas de IA mais recentes# Extração e limpeza de documentos
    4 meses atrás
    07030
    MarkPDFDown:基于多模态模型将PDF转为Markdown文件

    MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal

    综合介绍 MarkPDFDown 是一个开源工具。它利用多模态大语言模型,把 PDF 文件转为 Markdown 格式。开发者是 GitHub 用户 jorben。这个工具的目标很简单:让 PDF 文...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    3 meses atrás
    06830
    PDF Craft:PDF扫描文件转Markdown的开源工具

    PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

    综合介绍 PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# OCR# Extração e limpeza de documentos
    2 meses atrás
    06450
    SmolDocling:小体积高效处理文档的视觉语言模型

    SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume

    综合介绍 SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一个视觉语言模型(VLM),基于 SmolVLM-256M 打造,托管在 Hugging Face 平台。它体积小,只有 ...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# OCR# Extração e limpeza de documentos
    3 meses atrás
    06270
    zChunk:基于Llama-70B的通用语义分块策略

    zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B

    综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略,旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型,通过提示生成分块,优化了文档的分块过程,确保在信息检索时保持高...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    4 meses atrás
    06010
    par_scrape:智能提取网页数据的爬虫工具

    par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web

    综合介绍 par_scrape 是一个基于 Python 的开源网页爬虫工具,由开发者 Paul Robello 在 GitHub 上推出,旨在帮助用户从网页中智能提取数据。它整合了 Selenium...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    3 meses atrás
    05990
    Crawl4LLM:为LLM预训练提供的高效网页爬取工具

    Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM

    综合介绍 Crawl4LLM 是一个由清华大学和卡内基梅隆大学联合开发的开源项目,专注于优化大模型(LLM)预训练的网页爬取效率。它通过智能选择高质量网页数据,显著减少无效爬取,号称能将原本需要爬取1...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    3 meses atrás
    05890
    Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

    Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

    在人类文明的历史长河中,每一次信息获取和解析方式的飞跃,都深刻地推动着社会进步。从远古的象形文字,到便携的纸莎草,再到后来出现的印刷术以及当今的数字化浪潮,每一次技术革新都极大地拓展了人类知识的传播范...
    Ferramentas de IA mais recentes# Serviços abertos de IA# OCR# Extração e limpeza de documentos
    3 meses atrás
    05670
    CodeWeaver:将代码结构和内容自动生成Markdown文档

    CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.

    综合介绍 CodeWeaver 是一个命令行工具,旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录,生成项目文件层次结构的结构化表示,并在代码块中嵌入每个文件的内容。这款工具...
    Ferramentas de IA mais recentes# Projeto de código aberto AI Java# Extração e limpeza de documentos
    4 meses atrás
    05380
    Carregar mais
    Sharenet
    Sharenet.ai, o melhor e mais abrangente guia de aprendizado de IA e ferramenta de navegação. Abrace a onda da IA juntos! Ctrl + D ou ⌘ + D Marque este site na barra de favoritos do seu navegador ❤️

    Aplicativo Friendly Linkdeclaração negando ou limitando a responsabilidadeCooperação em publicidadeSobre nós

    Direitos autorais © 2025 Sharenet 
    pt_BRPortuguês do Brasil
    pt_BRPortuguês do Brasilzh_CN简体中文 en_USEnglish ja日本語 ko_KR한국어 es_ESEspañol de_DEDeutsch fr_FRFrançais
    escritos
    escritosendereço da webhardwarelivro