Ollama OCR:使用Ollama中视觉模型提取图像中的文本综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Strea...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리5개월 전01.9K0
llms.txt 생성기: 웹사이트 콘텐츠를 빠르게 캡처하고 LLM 교육 텍스트 데이터 세트를 생성합니다.综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具,专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发,采用 @firec...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.2K0
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...최신 AI 도구# AI 오픈 서비스# AI 번역# 문서 추출 및 정리4개월 전09710
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程综合介绍 ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器,包括 Tess...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.1K0
HtmlRAG: 효율적인 HTML 검색 강화 생성 시스템 구축, RAG 시스템에서 HTML 문서 검색 및 처리 최적화综合介绍 HtmlRAG是一个创新的开源项目,专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法,认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...최신 AI 도구# 문서 추출 및 정리# 지식 검색 및 RAG 프레임워크5개월 전09140
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전09140
Vision Parse:使用视觉语言模型将PDF文档智能转换为Markdown格式综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.1K0
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库,旨在通过结构化文本生成来提升大语言模型(LLM)的应用能力。该库支持多种模型集成,包括 OpenAI、transformers...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리4개월 전01.1K0
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式综合介绍 MarkItDown是由微软开发的一个Python工具,旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型,包括PDF、PowerPoint、Word、Excel、图...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.7K0
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리6개월 전01.1K0
GitIngest: 깃허브 코드 리포지토리를 LLM 이해에 적합한 텍스트로 빠르게 변환하기综合介绍 GitIngest 是一个开源工具,旨在将 GitHub 代码库转化为适合大语言模型(LLM)提示的文本。通过简单的操作,用户可以将任何 GitHub 仓库的内容提取并格式化为适合 LLM ...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.7K0
E2M:将多种文件格式转换为Markdown,轻松实现文档格式统一综合介绍 E2M(Everything to Markdown)是一个开源的Python库,旨在将多种文件格式转换为Markdown格式。该工具支持包括doc、docx、epub、html、htm、u...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01K0
Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR综合介绍 Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导...최신 AI 도구# AI 자바 오픈 소스 프로젝트# OCR# 문서 추출 및 정리6개월 전01.8K0
MegaParse: 각 유형의 문서를 LLM 사용 가능한 데이터로 구문 분석하여 표와 그림 등 문서의 모든 정보를 전체적으로 보존합니다.综合介绍 MegaParse 是一个强大且多功能的文件解析工具,专为大语言模型(LLM)的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档,MegaPar...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.5K0
ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型综合介绍 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通...최신 AI 도구# OCR# 문서 추출 및 정리6개월 전09940
Trieve:提供搜索、推荐和分析的全方位RAG云基础设施综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施,专为搜索、推荐、RAG(检索增强生成)和分析而设计。该平台通过 API 提供服务,支持自托管,适用于 AWS、GCP、K...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리6개월 전09420
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版综合介绍 pdf2htmlEX 是一个开源工具,旨在将 PDF 文件转换为 HTML 格式,通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.1K0
Maxun: 웹 데이터를 자동으로 크롤링하여 API 또는 스프레드시트로 변환하는 코드가 필요 없는 오픈 소스 플랫폼입니다.综合介绍 Maxun是一个开源的无代码网页数据提取平台,用户可以在几分钟内训练机器人,自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动,能够适应网站布局的变化,提供强大的数据抓取功能...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.2K0
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.1K0