文档提取与清洗 | 第3页

ordenar

Correo electrónico:actualización hojear felicitaciones

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...

hace 6 meses

02.2K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.4K

Doc2X: herramientas de reconocimiento y conversión de fórmulas de imágenes de documentos, compatibilidad con la conversión multiformato y traducción de alta precisión.

综合介绍 Doc2X 是一款功能强大的文档图片公式识别与转换工具，致力于提供高效智能的文档处理解决方案。无论是学术科研论文、教辅书籍、企业文档还是财报研报，Doc2X 都能精准识别 PDF 中的表格和...

Últimas herramientas de IA # AI Servicios abiertos # AI Traducción # Extracción y limpieza de documentos

hace 6 meses

01.4K

ExtractThinker: extracción y categorización de documentos en datos estructurados para optimizar el proceso de tratamiento de documentos.

Introducción exhaustiva ExtractThinker es una herramienta flexible de inteligencia de documentos que extrae y clasifica datos estructurados de documentos utilizando modelos de grandes lenguajes (LLM), proporcionando un flujo de trabajo de procesamiento de documentos sin fisuras similar a ORM. Es compatible con diversos cargadores de documentos, como Tess...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.4K

HtmlRAG：构建高效HTML检索增强生成系统，优化RAG系统中的HTML文档检索与处理

综合介绍 HtmlRAG是一个创新的开源项目，专注于改进检索增强生成(RAG)系统中的HTML文档处理方法。该项目提出了一种新颖的方法，认为在RAG系统中使用HTML格式比纯文本更有效。项目包含了完整...

Últimas herramientas de IA # Extracción y limpieza de documentos # Recuperación de conocimientos y marco RAG

hace 7 meses

01.1K

ScrapeGraphAI：一个提示词搞定网页抓取，无需编写规则智能网页内容提取工具

ScrapeGraphAI: Una palabra rápida para el rastreo web, sin necesidad de escribir reglas herramienta inteligente de extracción de contenido web.

综合介绍 ScrapeGraphAI是一个创新的Python网页抓取库，它巧妙地结合了大语言模型(LLM)和直接图逻辑来创建网站和本地文档的抓取管道。这个工具的独特之处在于它的简单性和强大功能的完美平...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 6 meses

01.2K

Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual

综合介绍 Vision Parse是一个革命性的文档处理工具，它巧妙地结合了最先进的视觉语言模型(Vision Language Models)技术，能够将PDF文档智能转换为优质的Markdown格...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.3K

Outlines：通过正则表达式、JSON或Pydantic模型生成结构化文本输出

综合介绍 Outlines 是一个由 dottxt-ai 开发的开源库，旨在通过结构化文本生成来提升大语言模型（LLM）的应用能力。该库支持多种模型集成，包括 OpenAI、transformers...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.4K

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.9K

Chunkr: un servicio todo en uno que utiliza modelos visuales para la ingestión de documentos y la agrupación inteligente basada en la jerarquía de párrafos de texto.

综合介绍 Chunkr 是一个自托管的 API，专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG（检索增强生成）和 LLM（大语言模型）使用的数据。该项目由 Lumina...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 7 meses

01.5K

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

02K

E2M: Convierte múltiples formatos de archivo a Markdown, consigue fácilmente un formato de documento uniforme.

Introducción general E2M (Everything to Markdown) es una biblioteca Python de código abierto diseñada para convertir una amplia gama de formatos de archivo al formato Markdown. La herramienta soporta formatos como doc, docx, epub, html, htm, u...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.4K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: soporte para una variedad de formatos de análisis sintáctico de documentos y exportación como Markdown y JSON, soporte PDF OCR

Introducción Docling es una potente herramienta de análisis y exportación de documentos compatible con una amplia gama de formatos, como PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc y Markdown, que puede analizar y exportar...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 7 meses

02.2K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 8 meses

01.8K

ViTLP：排版复杂PDF文档提取结构化数据，视觉引导生成文本布局预训练模型

综合介绍 ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）是一个开源项目，旨在通...

Últimas herramientas de IA # OCR # Extracción y limpieza de documentos

hace 8 meses

01.2K

Trieve：提供搜索、推荐和分析的全方位RAG云基础设施

综合介绍 Trieve 是由 Devflow, Inc. 开发的全方位基础设施，专为搜索、推荐、RAG（检索增强生成）和分析而设计。该平台通过 API 提供服务，支持自托管，适用于 AWS、GCP、K...

Últimas herramientas de IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 8 meses

01.2K

pdf2htmlEX：PDF无损转换为HTML，保持文本格式，适用于学术论文和杂志排版

综合介绍 pdf2htmlEX 是一个开源工具，旨在将 PDF 文件转换为 HTML 格式，通过分析 PDF 文件的内容并使用 HTML + CSS 精确还原其视觉效果, 将 PDF 文档转换为浏览器...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 8 meses

01.3K

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.4K