par_scrape: 웹 데이터의 지능적 추출을 위한 크롤러 도구일반 소개 파스크랩은 개발자 폴 로벨로가 GitHub에서 출시한 Python 기반 오픈 소스 웹 크롤러 도구로, 사용자가 웹 페이지에서 데이터를 지능적으로 추출할 수 있도록 설계되었습니다. 이 도구는 셀레늄을 통합합니다...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리3 개월 전05910
PDF-Extract-Kit: 오픈 소스 도구의 PDF 콘텐츠의 복잡한 구조를 추출합니다.포괄적 인 소개 PDF-Extract-Kit은 복잡하고 다양한 PDF 문서에서 고품질 콘텐츠를 효율적으로 추출하는 데 중점을두고 OpenDataLab 팀에서 개발 한 오픈 소스 프로젝트입니다. 고급 문서 구문 분석 기술을 통합하여 레이아웃 감지, 수식 인식을 지원합니다 ...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리3 개월 전07630
Crawl4LLM:为LLM预训练提供的高效网页爬取工具综合介绍 Crawl4LLM 是一个由清华大学和卡内基梅隆大学联合开发的开源项目,专注于优化大模型(LLM)预训练的网页爬取效率。它通过智能选择高质量网页数据,显著减少无效爬取,号称能将原本需要爬取1...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리3 개월 전05860
CodeWeaver:将代码结构和内容自动生成Markdown文档综合介绍 CodeWeaver 是一个命令行工具,旨在将代码库编织成单个、易于浏览的Markdown文档。它通过递归扫描目录,生成项目文件层次结构的结构化表示,并在代码块中嵌入每个文件的内容。这款工具...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전05340
Kreuzberg:从任何文档中提取文本的开源工具综合介绍 Kreuzberg是一个用于简化PDF文件文本提取的库,旨在提供简单、无忧的文本提取解决方案。该库特别适合需要进行文本提取的RAG(Retrieval-Augmented Generatio...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전07160
Instructor:简化大语言模型结构化输出工作流的Python库综合介绍 Instructor 是一个流行的 Python 库,专为处理大语言模型(LLMs)的结构化输出而设计。它基于 Pydantic 构建,提供了一个简单、透明且用户友好的 API,用于管理数据...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전07130
AI Functions:将输入内容转换为结构化输出的(API)服务综合介绍 Weco AI Functions 是一个强大的平台,旨在帮助用户快速构建和部署AI功能。通过简单的描述任务,用户可以生成结构化的输出模式,并进行A/B测试和观察性监控。该平台支持无代码原型...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리4개월 전07920
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库,旨在通过结构化文本生成来提升大语言模型(LLM)的应用能力。该库支持多种模型集成,包括 OpenAI、transformers...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전01.1K0
zChunk:基于Llama-70B的通用语义分块策略综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略,旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型,通过提示生成分块,优化了文档的分块过程,确保在信息检索时保持高...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전05980
Chonkie:轻量级RAG文本切块库综合介绍 Chonkie 是一个轻量级且高效的 RAG(Retrieval-Augmented Generation)文本切块库,旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法,包...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전01.3K0
Pulse:文档处理与数据提取的商业解决方案综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台,旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术,Pulse 能够准确地从文本、图像、表格等多种...최신 AI 도구# 문서 추출 및 정리4개월 전07010
Rowfill:批量提取文档结构化信息并自动化分析综合介绍 Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和Ope...최신 AI 도구# AI 자바 오픈 소스 프로젝트# AI 데이터 분석# 문서 추출 및 정리4개월 전07050
PPTX2MD: PPTX 파일을 마크다운으로 변환하는 특수 도구综合介绍 PPTX2MD是一个开源工具,旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发,支持保留标题、列表、文本格式(如粗体、斜体、颜色和超...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전08860
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...최신 AI 도구# AI 오픈 서비스# AI 번역# 문서 추출 및 정리4개월 전09700
Repomix:打包代码库为一个文本文件以便大模型检索综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전01.2K0
Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전09790
LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)综合介绍 LlamaParse 是一个强大的文档解析工具,能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格,并将其转换为结构化数据。LlamaParse 提供多种使用方式...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리4개월 전09900
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术,自动识别文档布局,分类表格、图像、公式和文本,极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리4개월 전08500
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전01K0