文档提取与清洗 | 第3页

順番に並べる

ポスト更新目を通すクドス

Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出

综合介绍 Ollama OCR是一个强大的光学字符识别(OCR)工具包，它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用，也提供了用户友好的Strea...

6ヶ月前

02.2K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

综合介绍 llmstxt-generator 是一个专业的网站内容提取和整合工具，专门为大语言模型(LLM)的训练和推理准备高质量文本数据集。该工具由 Mendable AI 开发，采用 @firec...

6ヶ月前

01.4K

Doc2X：文書画像式認識・変換ツール、マルチフォーマット変換と高精度翻訳をサポート

包括的な紹介 Doc2Xは、強力な文書画像式認識と変換ツールで、効率的でインテリジェントな文書処理ソリューションを提供することを約束します。学術研究論文、教科書、企業文書、財務報告書など、Doc2XはPDFの表と数式を正確に認識することができます。

6ヶ月前

01.4K

ExtractThinker: ドキュメントを構造化データに抽出・分類し、ドキュメント処理プロセスを最適化します。

综合介绍 ExtractThinker 是一个灵活的文档智能工具，利用大型语言模型（LLMs）从文档中提取和分类结构化数据，提供类似 ORM 的无缝文档处理工作流。它支持多种文档加载器，包括 Tess...

7ヶ月前

01.4K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

HtmlRAG：効率的なHTML検索拡張生成システムの構築、RAGシステムにおけるHTML文書の検索と処理の最適化

综合介绍 HtmlRAG是一个创新的开源项目，专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法，认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...

7ヶ月前

01.1K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI：ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库，它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...

6ヶ月前

01.2K

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

综合介绍 Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格...

7ヶ月前

01.3K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库，旨在通过结构化文本生成来提升大语言模型（LLM）的应用能力。该库支持多种模型集成，包括 OpenAI、transformers...

5ヶ月前

01.4K

MarkItDown：Microsoftドキュメントインテリジェント変換ツール、様々なファイルをMarkdown形式に変換

综合介绍 MarkItDown是由微软开发的一个Python工具，旨在将各种文件和办公文档转换为Markdown格式。该工具支持多种文件类型，包括PDF、PowerPoint、Word、Excel、图...

7ヶ月前

01.9K

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

综合介绍 Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina...

7ヶ月前

01.4K

GitIngest: GithubのコードリポジトリをLLMの理解に適したテキストに素早く変換

概要 GitIngestは、GitHubのコードリポジトリをLarge Language Model (LLM)のヒントに適したテキストに変換するためのオープンソースツールです。簡単な操作で、あらゆるGitHubリポジトリの内容を抽出し、LLMヒントに適合するように整形することができます。

7ヶ月前

02K

E2M: 複数のファイル形式をMarkdownに変換し、簡単に統一されたドキュメントフォーマットを実現する

概要 E2M (Everything to Markdown)は、様々なファイルフォーマットをMarkdownフォーマットに変換するために設計されたオープンソースのPythonライブラリです。このツールは、doc、docx、epub、html、htm、u...などのフォーマットをサポートしています。

7ヶ月前

01.3K