Crawl4LLM: An Efficient Web Crawling Tool for LLM Pretraining综合介绍 Crawl4LLM 是一个由清华大学和卡内基梅隆大学联合开发的开源项目,专注于优化大模型(LLM)预训练的网页爬取效率。它通过智能选择高质量网页数据,显著减少无效爬取,号称能将原本需要爬取1...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning3mos ago05760
Markdownify MCP Server: Converts various content to Markdown format based on the MCP protocol.综合介绍 Markdownify MCP Server 是一个基于 Model Context Protocol(模型上下文协议)的开源工具,托管于 GitHub,由开发者 Zach Caceres ...Latest AI tools# AI Java Open Source Projecct# MCP services# Document Extraction and Cleaning3mos ago07090
CodeWeaver: Automatically generate Markdown documents from code structure and content.综合介绍 CodeWeaver 是一个命令行工具,旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录,生成项目文件层次结构的结构化表示,并在代码块中嵌入每个文件的内容。这款工具...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning3mos ago05220
Kreuzberg: open source tool to extract text from any document综合介绍 Kreuzberg是一个用于简化PDF文件文本提取的库,旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG(Retrieval-Augmented Generatio...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago07010
Instructor: a Python library to simplify structured output workflows for large language models综合介绍 Instructor 是一个流行的 Python 库,专为处理大语言模型(LLMs)的结构化输出而设计。它基于 Pydantic 构建,提供了一个简单、透明且用户友好的 API,用于管理数据...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago07040
zChunk: a generic semantic chunking strategy based on Llama-70B综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略,旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型,通过提示生成分块,优化了文档的分块过程,确保在信息检索时保持高...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago05850
Pulse: Business Solutions for Document Processing and Data Extraction综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台,旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术,Pulse 能够准确地从文本、图像、表格等多种...Latest AI tools# Document Extraction and Cleaning4mos ago06910
Rowfill: Batch Extraction of Structured Information from Documents and Automated Analysis综合介绍 Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和Ope...Latest AI tools# AI Java Open Source Projecct# AI data analysis# Document Extraction and Cleaning4mos ago06960
PPTX2MD: Specialized tool for converting PPTX files to Markdown综合介绍 PPTX2MD是一个开源工具,旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发,支持保留标题、列表、文本格式(如粗体、斜体、颜色和超...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago08710
Repomix: packaging the code base into a text file for large model retrieval综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago01.2K0
Yek: reading git repository text files and quickly chunking them for use in large models综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago09720
LlamaParse: High-quality document parsing and data extraction service by Llamaindex (1000 free pages per day).Comprehensive Introduction LlamaParse is a powerful document parsing tool that can process complex documents such as PDF, PowerPoint, Word documents and spreadsheets and convert them into structured data.LlamaParse offers a variety of ways to use...Latest AI tools# AI Open Services# Document Extraction and Cleaning4mos ago09740
UnDatas.IO: API service for accurate parsing of various types of unstructured data (paid)综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术,自动识别文档布局,分类表格、图像、公式和文本,极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间...Latest AI tools# AI Open Services# Document Extraction and Cleaning4mos ago08370
Zerox: PDF, DOCX, image conversion to Markdown, visual modeling high-precision OCR综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago01K0
SemHash: Fast implementation of semantic text de-duplication to improve data cleaning efficiency综合介绍 SemHash 是一个轻量级且灵活的工具,用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN(近似最近邻)相似性搜索。SemHa...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning4mos ago09440
Parseur: automated extraction of document data, all types of documents to extract structured text综合介绍 Parseur是一款领先的AI数据提取软件,旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur,用户可以轻松地将非结构化数据转换为结构化数据,并将其发送到各种应用...Latest AI tools# Document Extraction and Cleaning5mos ago09280
AI Functions: (API) services that convert input content into structured outputs综合介绍 Weco AI Functions 是一个强大的平台,旨在帮助用户快速构建和部署AI功能。通过简单的描述任务,用户可以生成结构化的输出模式,并进行A/B测试和观察性监控。该平台支持无代码原型...Latest AI tools# AI Open Services# Document Extraction and Cleaning4mos ago07810
NV Ingest: Parsing complex format documents and extracting multimodal data into metadata and text综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...Latest AI tools# AI Java Open Source Projecct# Document Extraction and Cleaning5mos ago01K0
Trellis: convert unstructured documents into structured EXCEL format data, PDF fast to form (paid)综合介绍 Trellis是一款专注于将复杂的非结构化数据源转换为结构化SQL格式的数据平台。通过其强大的AI引擎,Trellis能够处理金融文档、语音通话和电子邮件等多种数据源,并将其转换为可供数据和...Latest AI tools# Document Extraction and Cleaning5mos ago08110