Ollama OCR:使用Ollama中视觉模型提取图像中的文本综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Strea...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리6개월 전02.2K
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR综合介绍 Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리7개월 전02.2K
GitIngest: 깃허브 코드 리포지토리를 LLM 이해에 적합한 텍스트로 빠르게 변환하기综合介绍 GitIngest 是一个开源工具,旨在将 GitHub 代码库转化为适合大语言模型(LLM)提示的文本。通过简单的操作,用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전02K
MinerU: PDF 문서 추출 및 멀티모달 마크다운 포맷으로 변환, 전자책 OCR 스캔 지원综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리10개월 전01.9K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式综合介绍 MarkItDown是由微软开发的一个Python工具,旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型,包括PDF、PowerPoint、Word、Excel、图...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.9K
마커: PDF를 마크다운 오픈 소스 도구로 빠르게 변환하기综合介绍 Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.9K
Mathpix:PDF和图片文档结构化转换软件,支持多终端综合介绍 Mathpix 是一款强大的 AI 驱动文档自动化工具,专为科研人员、开发者和企业设计。它能够快速准确地将 PDF 和图像转换为可搜索、可导出和机器可读的文本。Mathpix 提供了多种功能...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리11개월 전01.8K
MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리8개월 전01.7K
리더 API: 웹 콘텐츠 추출 도구, HTML을 마크다운으로 변환하는 도구综合介绍 Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Languag...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리10개월 전01.7K
Datalab: 전용 OCR 인식 AI 모델, PDF를 마크다운으로 변환(오픈 소스/API)综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...최신 AI 도구# AI 오픈 서비스# AI 자바 오픈 소스 프로젝트# OCR8개월 전01.6K
GPT-Crawler: 웹사이트 콘텐츠를 자동으로 크롤링하여 지식창고 문서 생성하기일반 소개 GPT-Crawler는 BuilderIO 팀이 개발하여 GitHub에서 호스팅하는 오픈 소스 도구입니다. 하나 이상의 웹사이트 URL을 입력하여 페이지 콘텐츠를 크롤링하고, 구조화된 지식 파일(output.jso...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리1개월 전01.6K
텍스트 추출 API(text-extract-api): 텍스트 정보의 시각적 추출, 익명화된 PDF 추출 도구포괄적인 소개 텍스트 추출 API(text-extract-api)는 다양한 문서 형식(예: PDF, Word, PPTX 등)에서 콘텐츠를 추출하고 파싱하도록 설계된 강력한 도구입니다. 이 API는 최첨단 광학 문자 인식(OCR) 기술과 Ol ...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리6개월 전01.5K
Chonkie:轻量级RAG文本切块库综合介绍 Chonkie 是一个轻量级且高效的 RAG(Retrieval-Augmented Generation)文本切块库,旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法,包...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.5K
비정형: 비정형 문서 전처리 오픈 소스, 비정형 데이터 처리 도구综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리11개월 전01.5K
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据综合介绍 Parsio 是一款基于 AI 技术的文档和邮件数据提取工具,能够自动从 PDF、电子邮件及其他文档中提取结构化数据。该平台提供强大的 PDF 解析器和 OCR 功能,支持多种文档类型,包括...최신 AI 도구# 문서 추출 및 정리8개월 전01.5K
llms.txt 생성기: 웹사이트 콘텐츠를 빠르게 캡처하고 LLM 교육 텍스트 데이터 세트를 생성합니다.综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firec...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.4K
리포믹스: 대규모 모델 검색을 위해 코드 베이스를 텍스트 파일로 패키징하기综合介绍 Repomix(前称Repopack)是一款开源工具,专门用于将整个代码库打包成一个单一的、AI友好的文件。这个工具可以让开发者轻松地将他们的代码库提供给大语言模型(如Claude、Chat...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.4K
Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.4K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...최신 AI 도구# AI 오픈 서비스# AI 번역# 문서 추출 및 정리6개월 전01.4K