自动解析PDF内容并提取文字与表格的开源服务

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

综合介绍 它能自动分析PDF文档的布局,识别页面中的文字、标题、图片、表格、公式等元素,并判断它们的正确顺序。工具支持OCR功能,可以把扫描PDF转为可搜索文本。它基于Docker运行,提供两种模型...
3ヶ月前
0615
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。

综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...
7ヶ月前
01.3K
ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识

ScreenPipe:記録された画面や操作情報を24時間収集し、AIアシスタント対話、要約、知識の見直しを通じて、ローカルの知識ベースに変換する

概要 ScreenPipeはmediar-aiによって開発されたAIアシスタントツールで、スクリーンコンテンツの録画、スクリーンショットのキャプチャ、24時間365日の音声の録音に特化しています。rewind.aiとcursor.comを組み合わせたものです。
8ヶ月前
01.6K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介 テキスト抽出API(text-extract-api)は、さまざまな文書形式(PDF、Word、PPTXなど)からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOl...
6ヶ月前
01.5K