Trieve:検索、レコメンデーション、アナリティクスを提供するフルサービスのRAGクラウドインフラストラクチャ综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施,专为搜索、推荐、RAG(检索增强生成)和分析而设计。该平台通过 API 提供服务,支持自托管,适用于 AWS、GCP、K...最新のAIツール# AIオープンサービス# ドキュメントの抽出とクリーニング6ヶ月前09490
pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。综合介绍 pdf2htmlEX 是一个开源工具,旨在将 PDF 文件转换为 HTML 格式,通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.1K0
OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング7ヶ月前01.1K0
Parsio: PDF、電子メール、その他のドキュメントから主要な構造化データを自動的に抽出します。综合介绍 Parsio 是一款基于 AI 技术的文档和邮件数据提取工具,能够自动从 PDF、电子邮件及其他文档中提取结构化数据。该平台提供强大的 PDF 解析器和 OCR 功能,支持多种文档类型,包括...最新のAIツール# ドキュメントの抽出とクリーニング7ヶ月前01.3K0
TextIn: ユニバーサルドキュメント変換、PDF to Markdownツール综合介绍 TextIn是一款专业的PDF转Markdown工具,旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式,操作简单,转换速度快,能够保留原始PDF的格式和内容...最新のAIツール# ドキュメントの抽出とクリーニング7ヶ月前01K0
Datalab:専用のOCR認識AIモデル、PDF to Markdown(オープンソース/API)综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将...最新のAIツール# AIオープンサービス# AI Java オープンソースプロジェクト# OCR7ヶ月前01.3K0
MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具,专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...最新のAIツール# AI Java オープンソースプロジェクト# OCR# ドキュメントの抽出とクリーニング8ヶ月前01.6K0
Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換综合介绍 Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Languag...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング9ヶ月前01.4K0
非構造化:オープンソースの非構造化ドキュメントの前処理、非構造化データ処理ツール综合介绍 Unstructured-IO 提供了一系列开源组件,用于处理和预处理图像和文本文档,如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程,特别是为大语言模型(LL...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング9ヶ月前01.3K0
Mathpix:PDFと画像ドキュメントの構造変換ソフトウェア、マルチターミナルをサポート概要 Mathpixは、研究者、開発者、企業向けに設計された、強力なAI駆動型ドキュメント自動化ツールです。Mathpixは、PDFや画像を迅速かつ正確に、検索可能、エクスポート可能、機械可読テキストに変換します。最新のAIツール# AIオープンサービス# ドキュメントの抽出とクリーニング9ヶ月前01.5K0