Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...최신 AI 도구# AI 오픈 서비스# AI 번역# 문서 추출 및 정리6개월 전01.4K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리8개월 전01.4K
ExtractThinker: 문서를 구조화된 데이터로 추출하고 분류하여 문서 처리 프로세스를 최적화합니다.综合介绍 ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器,包括 Tess...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.4K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库,旨在通过结构化文本生成来提升大语言模型(LLM)的应用能力。该库支持多种模型集成,包括 OpenAI、transformers...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.4K
pdf2htmlEX: PDF를 HTML로 무손실 변환하여 텍스트 서식을 유지하며 학술 논문 및 잡지 조판에 적합합니다.综合介绍 pdf2htmlEX 是一个开源工具,旨在将 PDF 文件转换为 HTML 格式,通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리8개월 전01.3K
E2M: 여러 파일 형식을 마크다운으로 변환하고, 균일한 문서 서식을 쉽게 달성하세요.일반 소개 E2M(Everything to Markdown)은 다양한 파일 형식을 마크다운 형식으로 변환하도록 설계된 오픈 소스 Python 라이브러리입니다. 이 도구는 doc, docx, epub, html, htm, u... 등의 형식을 지원합니다.최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.3K
비전 구문 분석: 시각 언어 모델을 사용하여 PDF 문서를 마크다운 형식으로 지능적으로 변환하기综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리7개월 전01.3K
TextIn:通用文档转换,PDF转Markdown工具综合介绍 TextIn是一款专业的PDF转Markdown工具,旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式,操作简单,转换速度快,能够保留原始PDF的格式和内容...최신 AI 도구# 문서 추출 및 정리8개월 전01.3K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本综合介绍 NV Ingest(NVIDIA Ingest) 是一套早期访问的微服务,专为解析数十万复杂、混乱的非结构化 PDF 和其他企业文档而设计。它能够将这些文档转换为元数据和文本,以便嵌入到检索...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.3K
Zerox: PDF, DOCX, 마크다운으로 이미지 변환, 시각적 모델 고정밀 OCR综合介绍 Zerox是一个开源项目,旨在通过视觉模型将PDF、DOCX、图像等文件转换为Markdown格式。该项目由getomni-ai团队开发,提供了简单高效的OCR(光学字符识别)解决方案。Ze...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.3K
SemHash:快速实现语义文本去重,提升数据清理效率综合介绍 SemHash 是一个轻量级且灵活的工具,用于通过语义相似性来去重数据集。它结合了 Model2Vec 的快速嵌入生成和 Vicinity 的高效 ANN(近似最近邻)相似性搜索。SemHa...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.2K
ViTLP: 일반적으로 복잡한 PDF 문서에서 구조화된 데이터를 추출하고 텍스트 레이아웃을 위한 사전 학습된 모델을 시각적으로 안내하여 생성합니다.综合介绍 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通...최신 AI 도구# OCR# 문서 추출 및 정리8개월 전01.2K
LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)综合介绍 LlamaParse 是一个强大的文档解析工具,能够处理复杂的文档如 PDF、PowerPoint、Word 文档和电子表格,并将其转换为结构化数据。LlamaParse 提供多种使用方式...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리6개월 전01.2K
Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기综合介绍 Yek 是一个基于 Rust 的快速工具,用于读取存储库或目录中的文本文件,将其分块并序列化以供大型语言模型(LLM)使用。该工具默认使用 .gitignore 规则跳过不需要的文件,并利用...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.2K
Parseur:自动化提取文档数据,各类文档中提取结构化文本综合介绍 Parseur是一款领先的AI数据提取软件,旨在帮助用户从PDF、电子邮件和其他文档中自动提取文本数据。通过Parseur,用户可以轻松地将非结构化数据转换为结构化数据,并将其发送到各种应用...최신 AI 도구# 문서 추출 및 정리6개월 전01.2K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리6개월 전01.2K
Trieve:提供搜索、推荐和分析的全方位RAG云基础设施综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施,专为搜索、推荐、RAG(检索增强生成)和分析而设计。该平台通过 API 提供服务,支持自托管,适用于 AWS、GCP、K...최신 AI 도구# AI 오픈 서비스# 문서 추출 및 정리8개월 전01.2K
파이어크롤 MCP 서버: 파이어크롤 기반 웹 크롤러 MCP 서비스일반 소개 파이어크롤 MCP 서버는 모델 컨텍스트 프로토콜(MCP) 프로토콜 구현을 기반으로 MendableAI에서 개발한 오픈 소스 도구로, 파이어크롤 A...최신 AI 도구# AI 자바 오픈 소스 프로젝트# MCP 서비스# 문서 추출 및 정리4개월 전01.1K
olmOCR: PDF 문서를 텍스트로 변환, 표, 수식 및 필기 콘텐츠 인식 지원일반 소개 olmOCR은 Allen 인공 지능 연구소(AI2)의 AllenNLP 팀이 개발한 오픈 소스 도구로 PDF 파일 변환에 중점을 두고 있습니다...최신 AI 도구# AI 자바 오픈 소스 프로젝트# 문서 추출 및 정리5개월 전01.1K