文档提取与清洗

ordenar

Correo electrónico:actualización hojear felicitaciones

Ollama OCR: Extracción de texto de imágenes mediante modelos visuales en Ollama

Introducción general Ollama OCR es un potente kit de herramientas de reconocimiento óptico de caracteres (OCR) que utiliza el modelo de lenguaje visual de última generación proporcionado por la plataforma Ollama para extraer texto de imágenes. El proyecto está disponible como paquete Python y proporciona una interfaz Strea...

hace 6 meses

02.2K

Docling：支持多种格式文档解析并导出为Markdown和JSON，PDF支持OCR

Docling: soporte para una variedad de formatos de análisis sintáctico de documentos y exportación como Markdown y JSON, soporte PDF OCR

Introducción Docling es una potente herramienta de análisis y exportación de documentos compatible con una amplia gama de formatos, como PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc y Markdown, que puede analizar y exportar...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 7 meses

02.2K

GitIngest: Convierta rápidamente los repositorios de código de Github en texto apto para la comprensión del LLM

Introducción general GitIngest es una herramienta de código abierto diseñada para transformar los repositorios de código de GitHub en texto adecuado para las sugerencias de Large Language Model (LLM). Con una sencilla operación, los usuarios pueden extraer y formatear el contenido de cualquier repositorio de GitHub para adaptarlo al LLM...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

02K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 10 meses

01.9K

MarkItDown: Herramienta de conversión inteligente de documentos de Microsoft para convertir varios archivos al formato Markdown

Introducción general MarkItDown es una herramienta Python desarrollada por Microsoft diseñada para convertir diversos archivos y documentos ofimáticos al formato Markdown. La herramienta admite una amplia gama de tipos de archivo, como PDF, PowerPoint, Word, Excel, diagramas...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.9K

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.9K

Mathpix: software de conversión estructurada de documentos PDF y de imagen, compatible con multiterminal

Descripción general Mathpix es una potente herramienta de automatización de documentos basada en IA diseñada para investigadores, desarrolladores y empresas. Convierte de forma rápida y precisa archivos PDF e imágenes en texto que se puede buscar, exportar y leer a máquina.Mathpix ofrece una amplia gama de funciones...

Últimas herramientas de IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 11 meses

01.8K

MegaParse：解析各类型文档为LLM可用数据，完整保留文档中的表格、图片等所有信息

MegaParse: analiza cada tipo de documento en datos disponibles en LLM, conservando toda la información del documento, como tablas e imágenes, en su totalidad.

Introducción general MegaParse es una potente y versátil herramienta de análisis sintáctico de documentos diseñada para optimizar el procesamiento de datos para el Large Language Model (LLM). Tanto si trabaja con texto, PDF, presentaciones de PowerPoint o documentos de Word, MegaParse...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 8 meses

01.7K

Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Introducción general El proyecto Reader de Jina AI es una herramienta de código abierto (Reader open source address) que toma cualquier URL añadiéndole el prefijo https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 10 meses

01.7K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: modelo AI dedicado al reconocimiento OCR, PDF a Markdown (código abierto/API)

Introducción completa Datalab ofrece una gama de modelos avanzados de IA centrados en OCR, análisis de diseño, conversión de PDF a Markdown y mucho más. Estos modelos no sólo son de alto rendimiento, sino también fáciles de usar y de código abierto. Los modelos Marker de la plataforma pueden...

Últimas herramientas de IA # AI Servicios abiertos # AI Java Proyecto de código abierto # OCR

hace 8 meses

01.6K

GPT-Crawler: rastreo automático de contenidos web para generar documentos de bases de conocimiento

Introducción general GPT-Crawler es una herramienta de código abierto desarrollada por el equipo BuilderIO y alojada en GitHub. Rastrea el contenido de las páginas introduciendo una o varias URL de sitios web, generando archivos de conocimiento estructurado (output.jso...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 mes

01.6K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 6 meses

01.5K

Chonkie: una biblioteca ligera de fragmentación de texto RAG

Introducción exhaustiva Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La librería soporta una gran variedad de métodos de fragmentación, incluyendo ...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.5K

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 11 meses

01.5K

Parsio: extracción automática de datos estructurados clave de PDF, correos electrónicos y otros documentos

Introducción general Parsio es una herramienta de extracción de datos de documentos y correos electrónicos basada en IA que extrae automáticamente datos estructurados de PDF, correos electrónicos y otros documentos. La plataforma ofrece un potente analizador de PDF y funciones de OCR y admite una amplia gama de tipos de documentos, incluidos...

Últimas herramientas de IA # Extracción y limpieza de documentos

hace 8 meses

01.5K

llms.txt Generator：快速抓取网站内容并，生成LLM训练文本数据集

Generador llms.txt: Capture rápidamente el contenido del sitio web y genere conjuntos de datos de texto de formación LLM.

Introducción general llmstxt-generator es una herramienta profesional de extracción e integración de contenido web dedicada a la preparación de conjuntos de datos de texto de alta calidad para el entrenamiento y la inferencia en Large Language Models (LLM). La herramienta fue desarrollada por Mendable AI utilizando @firec...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 6 meses

01.4K

Repomix: empaquetado de la base de código en un archivo de texto para la recuperación de modelos de gran tamaño.

Introducción general Repomix (antes conocido como Repopack) es una herramienta de código abierto diseñada para empaquetar todo un código base en un único archivo compatible con IA. Esta herramienta permite a los desarrolladores poner fácilmente su código base a disposición de grandes modelos lingüísticos (como Claude, Chat...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 6 meses

01.4K

Maxun: una plataforma sin código y de código abierto que rastrea automáticamente datos web y los convierte en API u hojas de cálculo.

Introducción completa Maxun es una plataforma de extracción de datos web sin código de código abierto que permite a los usuarios entrenar robots en cuestión de minutos para rastrear automáticamente datos web y convertirlos en API u hojas de cálculo. La plataforma admite paginación y desplazamiento, se adapta a los cambios en el diseño del sitio web, proporciona un potente rastreo de datos...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 7 meses

01.4K