LOADING

Sharenet
  • AI hands-on tutorials
  • AI utility commands
  • Course materials
  • AI Knowledge Base
  • AI Answers
  • I want to contribute
    • Top AI Recommendations
    • Latest AI tools
    • AI Article Writing
    • AI image generation
    • AI Video Tools
    • AI Office Efficiency
    • AI Programming Tools
    • AI design tools
    • AI chat assistant
    • AI Intelligence

    Document Extraction and Cleaning

    Total 67 articles posts
    Sorting
    releaseupdateViewsLike
    SemHash:快速实现语义文本去重,提升数据清理效率

    SemHash: Fast implementation of semantic text de-duplication to improve data cleaning efficiency

    综合介绍 SemHash 是一个轻量级且灵活的工具,用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN(近似最近邻)相似性搜索。SemHa...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    09600
    Parseur:自动化提取文档数据,各类文档中提取结构化文本

    Parseur: automated extraction of document data, all types of documents to extract structured text

    综合介绍 Parseur是一款领先的AI数据提取软件,旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur,用户可以轻松地将非结构化数据转换为结构化数据,并将其发送到各种应用...
    Latest AI tools# Document Extraction and Cleaning
    5mos ago
    09420
    ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

    ScrapeGraphAI: A single cue word for web crawling, no need to write rules intelligent web content extraction tools

    综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    09200
    NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

    NV Ingest: Parsing complex format documents and extracting multimodal data into metadata and text

    综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.1K0
    Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

    Trellis: convert unstructured documents into structured EXCEL format data, PDF fast to form (paid)

    综合介绍 Trellis是一款专注于将复杂的非结构化数据源转换为结构化SQL格式的数据平台。通过其强大的AI引擎,Trellis能够处理金融文档、语音通话和电子邮件等多种数据源,并将其转换为可供数据和...
    Latest AI tools# Document Extraction and Cleaning
    5mos ago
    08330
    文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

    Text Extraction API (text-extract-api): visual extraction of text information, anonymized PDF extraction tool

    综合介绍 文本提取API(text-extract-api)是一个强大的工具,旨在从各种文档格式(如PDF、Word、PPTX等)中提取和解析内容。该API利用最先进的光学字符识别(OCR)技术和Ol...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    5mos ago
    01.3K0
    Ollama OCR:使用Ollama中视觉模型提取图像中的文本

    Ollama OCR: Extracting Text from Images Using Visual Models in Ollama

    综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Strea...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    5mos ago
    02K0
    llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

    llms.txt Generator: Rapidly crawls website content and generates LLM training text datasets.

    综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firec...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.2K0
    ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

    ExtractThinker: extracting and classifying documents into structured data to optimize the document processing flow

    综合介绍 ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器,包括 Tess...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.1K0
    HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

    HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Optimizing HTML Document Retrieval and Processing in RAG Systems

    综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...
    Latest AI tools# Document Extraction and Cleaning# Knowledge Retrieval with RAG Framework
    5mos ago
    09160
    Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

    Maxun: open source no-code platform that automatically crawls web data and converts it to APIs or spreadsheets

    综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.2K0
    Vision Parse: Intelligent Conversion of PDF Documents to Markdown Format Using Visual Language Models

    Vision Parse: Intelligent Conversion of PDF Documents to Markdown Format Using Visual Language Models

    综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    5mos ago
    01.1K0
    MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

    MarkItDown: Microsoft Document Intelligent Conversion Tool to convert various files to Markdown format

    综合介绍 MarkItDown是由微软开发的一个Python工具,旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型,包括PDF、PowerPoint、Word、Excel、图...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01.7K0
    Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

    Chunkr: An All-in-One Service for Document Ingestion and Intelligent Chunking Based on Text Paragraph Hierarchy Using Visual Models

    综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    6mos ago
    01.1K0
    GitIngest:快速将Github代码仓库转为适合LLM理解的文本

    GitIngest: Quickly Convert Github Code Repositories to Text Suitable for LLM Understanding

    综合介绍 GitIngest 是一个开源工具,旨在将 GitHub 代码库转化为适合大语言模型(LLM)提示的文本。通过简单的操作,用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01.7K0
    E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一

    E2M: Convert multiple file formats to Markdown for easy document formatting unification

    综合介绍 E2M(Everything to Markdown)是一个开源的Python库,旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、u...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01K0
    Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR

    Docling: support for a variety of formats document parsing and export as Markdown and JSON, PDF support OCR

    综合介绍 Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...
    Latest AI tools# AI Java Open Source Projecct# OCR# Document Extraction and Cleaning
    6mos ago
    01.8K0
    MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

    MegaParse: parses all types of documents into LLM-available data, preserving all information in the document such as tables, pictures, etc. in its entirety

    综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...
    Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning
    6mos ago
    01.5K0
    ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型

    ViTLP: Extracting Structured Data from Typographically Complex PDF Documents and Visually Guided Generation of Text Layout Pre-training Models

    综合介绍 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通...
    Latest AI tools# OCR# Document Extraction and Cleaning
    6mos ago
    09990
    Load More
    Sharenet
    Sharenet.ai, the best and most comprehensive AI learning guide and tool navigation. Embrace the wave of AI together!Ctrl + D or ⌘ + D Bookmark this site to your browser bookmark bar ❤️

    Friendly Link Applicationstatement denying or limiting responsibilityAdvertisement CooperationAbout Us

    Copyright © 2025 Sharenet 
    en_USEnglish
    en_USEnglishzh_CN简体中文 ja日本語 ko_KR한국어 es_ESEspañol de_DEDeutsch fr_FRFrançais pt_BRPortuguês do Brasil
    posts
    poststoolsappbook