文档提取与清洗

順番に並べる

ポスト更新目を通すクドス

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Strea...

6ヶ月前

02.2K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR

包括的な紹介 Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDocおよびMarkdownを含む幅広い文書形式をサポートする強力な文書解析およびエクスポートツールです。

7ヶ月前

02.1K

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するためのオープンソースツールです。簡単な操作で、あらゆるGitHubリポジトリの内容を抽出し、LLMヒントに適合するように整形することができます。

7ヶ月前

01.9K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

综合介绍 MinerU是由上海人工智能实验室OpenDataLab团队开发的一款开源数据提取工具，专注于从复杂的PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式、表格等元素的多模态PDF...

10ヶ月前

01.9K

MarkItDown：Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

综合介绍 MarkItDown是由微软开发的一个Python工具，旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型，包括PDF、PowerPoint、Word、Excel、图...

7ヶ月前

01.9K

Marker：PDFをMarkdownに素早く変換するオープンソースツール

综合介绍 Marker 是一个基于深度学习的文档处理工具，旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型，特别优化了书籍和科学论文的转换。Marker 能够去除页眉页...

5ヶ月前

01.9K

Mathpix：PDFと画像ドキュメントの構造変換ソフトウェア、マルチターミナルをサポート

概要 Mathpixは、研究者、開発者、企業向けに設計された、強力なAI駆動型ドキュメント自動化ツールです。Mathpixは、PDFや画像を迅速かつ正確に、検索可能、エクスポート可能、機械可読テキストに変換します。

11ヶ月前

01.8K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse：各タイプのドキュメントをLLMで利用可能なデータに解析し、表や写真などドキュメント内のすべての情報をそのまま保存する。

综合介绍 MegaParse 是一个强大且多功能的文件解析工具，专为大语言模型（LLM）的数据处理优化而设计。无论是处理文本、PDF、PowerPoint 演示文稿还是 Word 文档，MegaPar...

7ヶ月前

01.7K

Reader API: ウェブコンテンツ抽出ツール、HTMLからMarkdownへの変換

综合介绍 Jina AI的Reader项目是一个开源工具（Reader 开源地址），可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Languag...

10ヶ月前

01.6K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab：専用のOCR認識AIモデル、PDF to Markdown（オープンソース/API）

综合介绍 Datalab 提供了一系列先进的AI模型，专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越，而且易于使用，并且是开源的。平台上的Marker模型可以快速准确地将...

8ヶ月前

01.6K

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

综合介绍 GPT-Crawler 是由 BuilderIO 团队开发的一个开源工具，托管在 GitHub 上。它通过输入一个或多个网站 URL，爬取页面内容，生成结构化的知识文件（output.jso...

1ヶ月前

01.5K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介テキスト抽出API（text-extract-api）は、さまざまな文書形式（PDF、Word、PPTXなど）からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識（OCR）技術とOl...

6ヶ月前

01.5K

Chonkie: 軽量なRAGテキストチャンキングライブラリ

综合介绍 Chonkie 是一个轻量级且高效的 RAG（Retrieval-Augmented Generation）文本切块库，旨在帮助开发者快速、简便地对文本进行分块处理。该库支持多种分块方法，包...

5ヶ月前

01.5K

非構造化：オープンソースの非構造化ドキュメントの前処理、非構造化データ処理ツール

综合介绍 Unstructured-IO 提供了一系列开源组件，用于处理和预处理图像和文本文档，如 PDF、HTML、Word 文档等。其主要目标是简化和优化数据处理工作流程，特别是为大语言模型（LL...

11ヶ月前

01.4K

Parsio: PDF、電子メール、その他のドキュメントから主要な構造化データを自動的に抽出します。

综合介绍 Parsio 是一款基于 AI 技术的文档和邮件数据提取工具，能够自动从 PDF、电子邮件及其他文档中提取结构化数据。该平台提供强大的 PDF 解析器和 OCR 功能，支持多种文档类型，包括...

最新のAIツール # ドキュメントの抽出とクリーニング

8ヶ月前

01.4K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具，专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发，采用 @firec...

6ヶ月前

01.4K

Repomix：大規模モデル検索用にコードベースをテキストファイルにパッケージ化

概論 Repomix（以前はRepopackとして知られていた）は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールです。このツールにより、開発者は自分のコードベースを大規模な言語モデル（ClaudeやChat...

6ヶ月前

01.4K

Maxun：ウェブデータを自動的にクロールし、APIやスプレッドシートに変換するオープンソースのコード不要プラットフォーム

综合介绍 Maxun是一个开源的无代码网页数据提取平台，用户可以在几分钟内训练机器人，自动抓取网页数据并将其转换为API或电子表格。该平台支持分页和滚动，能够适应网站布局的变化，提供强大的数据抓取功能...

6ヶ月前

01.4K

Doc2X：文書画像式認識・変換ツール、マルチフォーマット変換と高精度翻訳をサポート

包括的な紹介 Doc2Xは、強力な文書画像式認識と変換ツールで、効率的でインテリジェントな文書処理ソリューションを提供することを約束します。学術研究論文、教科書、企業文書、財務報告書など、Doc2XはPDFの表と数式を正確に認識することができます。

6ヶ月前

01.4K