Doc2X:文書画像式認識・変換ツール、マルチフォーマット変換と高精度翻訳をサポート包括的な紹介 Doc2Xは、強力な文書画像式認識と変換ツールで、効率的でインテリジェントな文書処理ソリューションを提供することを約束します。学術研究論文、教科書、企業文書、財務報告書など、Doc2XはPDFの表と数式を正確に認識することができます。最新のAIツール# AIオープンサービス# AI翻訳# ドキュメントの抽出とクリーニング6ヶ月前01.4K
OmniParse: ドキュメント/マルチメディアからあらゆる非構造化データを抽出し、構造化データにパースします。综合介绍 OmniParse是一个强大的数据解析与优化平台,旨在将任何非结构化数据转换为结构化、可操作的数据,优化后适用于GenAI(生成式人工智能)框架。无论是处理文档、表格、图像、视频、音频文件还...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング8ヶ月前01.4K
ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。综合介绍 ExtractThinker 是一个灵活的文档智能工具,利用大型语言模型(LLMs)从文档中提取和分类结构化数据,提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器,包括 Tess...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング7ヶ月前01.4K
アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库,旨在通过结构化文本生成来提升大语言模型(LLM)的应用能力。该库支持多种模型集成,包括 OpenAI、transformers...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング5ヶ月前01.4K
pdf2htmlEX: テキストフォーマットを維持したまま、PDFをHTMLにロスレス変換。综合介绍 pdf2htmlEX 是一个开源工具,旨在将 PDF 文件转换为 HTML 格式,通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング8ヶ月前01.3K
E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング7ヶ月前01.3K
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換综合介绍 Vision Parse是一个革命性的文档处理工具,它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术,能够将PDF文档智能转换为优质的Markdown格...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング7ヶ月前01.3K
TextIn: ユニバーサルドキュメント変換、PDF to Markdownツール综合介绍 TextIn是一款专业的PDF转Markdown工具,旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式,操作简单,转换速度快,能够保留原始PDF的格式和内容...最新のAIツール# ドキュメントの抽出とクリーニング8ヶ月前01.3K
NVインジェスト:複雑なフォーマットのドキュメントを解析し、マルチモーダルデータをメタデータとテキストに抽出する。包括的な紹介 NV Ingest (NVIDIA Ingest)は、何十万もの複雑で厄介な非構造化PDFやその他の企業ドキュメントを解析するために設計された、早期アクセス可能なマイクロサービス群です。これらのドキュメントをメタデータとテキストに変換し、検索に埋め込むことができます...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.3K
Zerox: PDF、DOCX、Markdownへの画像変換、ビジュアルモデル高精度OCR一般的な紹介 Zeroxは、ビジュアルモデルを通してPDF、DOCX、画像やその他のドキュメントをMarkdown形式に変換するために設計されたオープンソースプロジェクトです。このプロジェクトはgetomni-aiチームによって開発され、シンプルで効率的なOCR(光学式文字認識)ソリューションを提供します。最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.3K
SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.2K
ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する综合介绍 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通...最新のAIツール# OCR# ドキュメントの抽出とクリーニング8ヶ月前01.2K
LlamaParse: Llamaindexによる高品質な文書解析とデータ抽出サービス(1日1000ページ無料)。包括的な紹介 LlamaParseは、PDF、PowerPoint、Word文書、スプレッドシートなどの複雑な文書を処理し、構造化データに変換できる強力な文書解析ツールです。最新のAIツール# AIオープンサービス# ドキュメントの抽出とクリーニング6ヶ月前01.2K
Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.2K
Parseur: 文書データの自動抽出、様々な文書からの構造化テキスト抽出概要 Parseurは、PDF、電子メール、その他のドキュメントからテキストデータを自動的に抽出するために設計された、業界をリードするAIデータ抽出ソフトウェアです。Parseurを使用すると、ユーザーは簡単に非構造化データを構造化データに変換し、様々なアプリケーションに送信することができます...最新のAIツール# ドキュメントの抽出とクリーニング6ヶ月前01.2K
ScrapeGraphAI:ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング6ヶ月前01.2K
Trieve:検索、レコメンデーション、アナリティクスを提供するフルサービスのRAGクラウドインフラストラクチャ综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施,专为搜索、推荐、RAG(检索增强生成)和分析而设计。该平台通过 API 提供服务,支持自托管,适用于 AWS、GCP、K...最新のAIツール# AIオープンサービス# ドキュメントの抽出とクリーニング8ヶ月前01.2K
Firecrawl MCPサーバー: FirecrawlベースのWebクローラーMCPサービス概要 Firecrawl MCP Serverは、MendableAIによって開発されたオープンソースツールで、モデルコンテキストプロトコル(MCP)プロトコルの実装に基づき、Firecrawl A...最新のAIツール# AI Java オープンソースプロジェクト# MCPサービス# ドキュメントの抽出とクリーニング4ヶ月前01.1K
olmOCR: PDF 文書のテキスト変換、表、数式、手書き内容の認識のサポート综合介绍 olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,专注于将 PDF 文件转...最新のAIツール# AI Java オープンソースプロジェクト# ドキュメントの抽出とクリーニング5ヶ月前01.1K