Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...
hace 6 meses
02.2K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...
hace 7 meses
01.4K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: herramientas de reconocimiento y conversión de fórmulas de imágenes de documentos, compatibilidad con la conversión multiformato y traducción de alta precisión.

综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具,致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报,Doc2X 都能精准识别 PDF 中的表格和...
hace 6 meses
01.4K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción exhaustiva ExtractThinker es una herramienta flexible de inteligencia de documentos que extrae y clasifica datos estructurados de documentos utilizando modelos de grandes lenguajes (LLM), proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tess...
hace 7 meses
01.4K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库,它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...
hace 6 meses
01.2K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...
hace 7 meses
01.9K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina...
hace 7 meses
01.5K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...
hace 7 meses
02K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...
hace 8 meses
01.8K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...
hace 7 meses
01.4K