LOADING

Sharenet
  • AI hands-on tutorials
  • AI utility commands
  • Course materials
  • AI Knowledge Base
  • AI Answers
  • I want to contribute
    • Top AI Recommendations
    • Latest AI tools
    • AI Article Writing
    • AI image generation
    • AI Video Tools
    • AI Office Efficiency
    • AI Programming Tools
    • AI design tools
    • AI chat assistant
    • AI Intelligence

    Document Extraction and Cleaning

    Total 67 articles posts
    Sorting
    releaseupdateViewsLike
    Ollama OCR:使用Ollama中视觉模型提取图像中的文本

    Ollama OCR: Extracting Text from Images Using Visual Models in Ollama

    综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Strea...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    5mos ago
    01.9K0
    Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

    Docling: support for a variety of formats document parsing and export as Markdown and JSON, PDF support OCR

    综合介绍 Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    6mos ago
    01.8K0
    GitIngest:快速将Github代码仓库转为适合LLM理解的文本

    GitIngest: Quickly Convert Github Code Repositories to Text Suitable for LLM Understanding

    综合介绍 GitIngest 是一个开源工具,旨在将 GitHub 代码库转化为适合大语言模型(LLM)提示的文本。通过简单的操作,用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01.7K0
    MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

    MarkItDown: Microsoft Document Intelligent Conversion Tool to convert various files to Markdown format

    综合介绍 MarkItDown是由微软开发的一个Python工具,旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型,包括PDF、PowerPoint、Word、Excel、图...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.7K0
    MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

    MinerU: PDF document extraction and conversion to multimodal Markdown format, support e-book OCR scanning

    综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    8mos ago
    01.6K0
    Marker:快速将PDF转换为Markdown的开源工具

    Marker: quickly convert PDF to Markdown open source tools

    综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    3mos ago
    01.6K0
    Mathpix:PDF和图片文档结构化转换软件,支持多终端

    Mathpix: PDF and image documents structured conversion software, support for multi-terminal

    综合介绍 Mathpix 是一款强大的 AI 驱动文档自动化工具,专为科研人员、开发者和企业设计。它能够快速准确地将 PDF 和图像转换为可搜索、可导出和机器可读的文本。Mathpix 提供了多种功能...
    Latest AI tools# AI Open Services# Document Extraction and Cleaning
    9mos ago
    01.5K0
    MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

    MegaParse: parses all types of documents into LLM-available data, preserving all information in the document such as tables, pictures, etc. in its entirety

    综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01.5K0
    Reader API:网页内容提取工具,HTML转换为Markdown格式

    Reader API: Web page content extraction tool, HTML to Markdown format conversion

    综合介绍 Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Languag...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    9mos ago
    01.4K0
    GPT-Crawler:自动爬取网站内容生成知识库文件

    GPT-Crawler: Automatically Crawling Website Content to Generate Knowledge Base Documents

    综合介绍 GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具,托管在 GitHub 上。它通过输入一个或多个网站 URL,爬取页面内容,生成结构化的知识文件(output.jso...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    2mos ago
    01.3K0
    Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

    Datalab: dedicated OCR recognition AI model, PDF to Markdown (open source/API)

    综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...
    Latest AI tools# AI Open Services# AI Java Open Source Projecct# OCR
    7mos ago
    01.3K0
    Chonkie:轻量级RAG文本切块库

    Chonkie: a lightweight RAG text chunking library

    综合介绍 Chonkie 是一个轻量级且高效的 RAG(Retrieval-Augmented Generation)文本切块库,旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法,包...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    4mos ago
    01.3K0
    文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

    Text Extraction API (text-extract-api): visual extraction of text information, anonymized PDF extraction tool

    综合介绍 文本提取API(text-extract-api)是一个强大的工具,旨在从各种文档格式(如PDF、Word、PPTX等)中提取和解析内容。该API利用最先进的光学字符识别(OCR)技术和Ol...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    5mos ago
    01.3K0
    Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

    Parsio: Automatically Extract Key Structured Data from PDFs, Emails and Other Documents

    综合介绍 Parsio 是一款基于 AI 技术的文档和邮件数据提取工具,能够自动从 PDF、电子邮件及其他文档中提取结构化数据。该平台提供强大的 PDF 解析器和 OCR 功能,支持多种文档类型,包括...
    Latest AI tools# Document Extraction and Cleaning
    7mos ago
    01.2K0
    Unstructured:开源预处理非结构化文档,无结构数据处理的利器

    Unstructured: open source preprocessing unstructured documents, unstructured data processing tools

    综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    9mos ago
    01.2K0
    llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

    llms.txt Generator: Rapidly crawls website content and generates LLM training text datasets.

    综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firec...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.2K0
    Repomix:打包代码库为一个文本文件以便大模型检索

    Repomix: packaging the code base into a text file for large model retrieval

    综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    4mos ago
    01.2K0
    Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

    Maxun: open source no-code platform that automatically crawls web data and converts it to APIs or spreadsheets

    综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.2K0
    ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

    ExtractThinker: extracting and classifying documents into structured data to optimize the document processing flow

    综合介绍 ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器,包括 Tess...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.1K0
    Load More
    Sharenet
    Sharenet.ai, the best and most comprehensive AI learning guide and tool navigation. Embrace the wave of AI together!Ctrl + D or ⌘ + D Bookmark this site to your browser bookmark bar ❤️

    Friendly Link Applicationstatement denying or limiting responsibilityAdvertisement CooperationAbout Us

    Copyright © 2025 Sharenet 
    en_USEnglish
    en_USEnglishzh_CN简体中文 ja日本語 ko_KR한국어 es_ESEspañol de_DEDeutsch fr_FRFrançais pt_BRPortuguês do Brasil
    posts
    poststoolsappbook