Crawl4LLM: LLM 사전 교육을 위한 효율적인 웹 크롤링 도구종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전0752
Markdownify MCP Server:基于MCP协议将各种内容转换为Markdown格式综合介绍 Markdownify MCP Server 是一个基于 Model Context Protocol(模型上下文协议)的开源工具,托管于 GitHub,由开发者 Zach Caceres ...최신 AI 도구# AI 자바 오픈 소스 프로젝트# MCP 서비스# 문서 추출 및 정리4개월 전0967
CodeWeaver: 코드 구조와 콘텐츠로부터 마크다운 문서를 자동으로 생성합니다.일반 소개 CodeWeaver는 코드 라이브러리를 탐색하기 쉬운 하나의 마크다운 문서로 엮도록 설계된 명령줄 도구입니다. 디렉터리를 재귀적으로 스캔하고 각 파일의 내용을 코드 블록에 포함시켜 프로젝트의 파일 계층 구조를 구조적으로 표현합니다. 이 도구는...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전0721
크로이츠베르크: 모든 문서에서 텍스트를 추출하는 오픈 소스 도구일반 소개 Kreuzberg는 PDF 파일에서 텍스트 추출을 간소화하기 위한 라이브러리로, 간단하고 번거로움 없는 텍스트 추출 솔루션을 제공하도록 설계되었습니다. 이 라이브러리는 특히 RAG(검색 증강 생성)에 적합합니다.최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전0902
Instructor:简化大语言模型结构化输出工作流的Python库综合介绍 Instructor 是一个流行的 Python 库,专为处理大语言模型(LLMs)的结构化输出而设计。它基于 Pydantic 构建,提供了一个简单、透明且用户友好的 API,用于管理数据...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전0912
zChunk:基于Llama-70B的通用语义分块策略综合介绍 zChunk是由ZeroEntropy开发的一种新型分块策略,旨在为通用语义分块提供解决方案。该策略基于Llama-70B模型,通过提示生成分块,优化了文档的分块过程,确保在信息检索时保持高...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전0800
Pulse: 문서 처리 및 데이터 추출을 위한 비즈니스 솔루션综合介绍 Pulse 是一个专注于文档处理和数据提取的智能平台,旨在帮助企业和开发者高效地解析和处理各种复杂文档。通过其先进的计算机视觉和多模态处理技术,Pulse 能够准确地从文本、图像、表格等多种...최신 AI 도구# 문서 추출 및 정리5개월 전0901
행 채우기: 문서에서 구조화된 정보 일괄 추출 및 자동 분석综合介绍 Rowfill 是一个开源的文档处理平台,专为知识工作者设计。它利用先进的人工智能技术,从复杂的文档、图像和PDF中提取、分析和处理数据。Rowfill 支持本地大语言模型(LLM)和Ope...최신 AI 도구# AI 자바 오픈 소스 프로젝트# AI 데이터 분석# 문서 추출 및 정리5개월 전0900
PPTX2MD: PPTX 파일을 마크다운으로 변환하는 특수 도구综合介绍 PPTX2MD是一个开源工具,旨在将PowerPoint的PPTX文件转换为Markdown格式。该工具由GitHub用户ssine开发,支持保留标题、列表、文本格式(如粗体、斜体、颜色和超...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.1K
리포믹스: 대규모 모델 검색을 위해 코드 베이스를 텍스트 파일로 패키징하기综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.4K
Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.2K
LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)综合介绍 LlamaParse 是一个强大的文档解析工具,能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格,并将其转换为结构化数据。LlamaParse 提供多种使用方式...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리6개월 전01.2K
UnDatas.IO: 다양한 유형의 비정형 데이터를 정확하게 파싱하기 위한 API 서비스(유료)综合介绍 UnDatas.IO 是一个专注于解析和处理非结构化数据的平台。它利用先进的技术,自动识别文档布局,分类表格、图像、公式和文本,极大地简化了数据处理流程。该平台不仅能够节省大量的数据整理时间...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리6개월 전01.1K
Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.3K
SemHash:快速实现语义文本去重,提升数据清理效率综合介绍 SemHash 是一个轻量级且灵活的工具,用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN(近似最近邻)相似性搜索。SemHa...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.2K
Parseur:自动化提取文档数据,各类文档中提取结构化文本综合介绍 Parseur是一款领先的AI数据提取软件,旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur,用户可以轻松地将非结构化数据转换为结构化数据,并将其发送到各种应用...최신 AI 도구# 문서 추출 및 정리6개월 전01.1K
AI Functions:将输入内容转换为结构化输出的(API)服务综合介绍 Weco AI Functions 是一个强大的平台,旨在帮助用户快速构建和部署AI功能。通过简单的描述任务,用户可以生成结构化的输出模式,并进行A/B测试和观察性监控。该平台支持无代码原型...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리5개월 전0993
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.3K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)综合介绍 Trellis是一款专注于将复杂的非结构化数据源转换为结构化SQL格式的数据平台。通过其强大的AI引擎,Trellis能够处理金融文档、语音通话和电子邮件等多种数据源,并将其转换为可供数据和...최신 AI 도구# 문서 추출 및 정리6개월 전01K