文档提取与清洗 | 第4页

ordenar

Correo electrónico:actualización hojear felicitaciones

Parsio: extracción automática de datos estructurados clave de PDF, correos electrónicos y otros documentos

Introducción general Parsio es una herramienta de extracción de datos de documentos y correos electrónicos basada en IA que extrae automáticamente datos estructurados de PDF, correos electrónicos y otros documentos. La plataforma ofrece un potente analizador de PDF y funciones de OCR y admite una amplia gama de tipos de documentos, incluidos...

Últimas herramientas de IA # Extracción y limpieza de documentos

hace 8 meses

01.5K

Chonkie: una biblioteca ligera de fragmentación de texto RAG

Introducción exhaustiva Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La librería soporta una gran variedad de métodos de fragmentación, incluyendo ...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.5K

TextIn：通用文档转换，PDF转Markdown工具

综合介绍 TextIn是一款专业的PDF转Markdown工具，旨在帮助用户高效地将PDF文档转换为Markdown格式。该工具支持多种文件格式，操作简单，转换速度快，能够保留原始PDF的格式和内容...

Últimas herramientas de IA # Extracción y limpieza de documentos

hace 9 meses

01.3K

文本提取API（text-extract-api）：视觉提取文本信息，匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 6 meses

01.6K

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab: modelo AI dedicado al reconocimiento OCR, PDF a Markdown (código abierto/API)

Introducción completa Datalab ofrece una gama de modelos avanzados de IA centrados en OCR, análisis de diseño, conversión de PDF a Markdown y mucho más. Estos modelos no sólo son de alto rendimiento, sino también fáciles de usar y de código abierto. Los modelos Marker de la plataforma pueden...

Últimas herramientas de IA # AI Servicios abiertos # AI Java Proyecto de código abierto # OCR

hace 9 meses

01.6K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: extracción de documentos PDF y conversión a formato Markdown multimodal, compatibilidad con escaneado OCR de libros electrónicos

Introducción exhaustiva MinerU es una herramienta de extracción de datos de código abierto desarrollada por el equipo OpenDataLab del Laboratorio de Inteligencia Artificial de Shanghai, centrada en la extracción eficiente de contenido de documentos PDF, páginas web y libros electrónicos complejos. Es capaz de tomar PDF multimodales que contengan imágenes, fórmulas, tablas y otros elementos...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 10 meses

01.9K

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.9K

Mathpix: software de conversión estructurada de documentos PDF y de imagen, compatible con multiterminal

Descripción general Mathpix es una potente herramienta de automatización de documentos basada en IA diseñada para investigadores, desarrolladores y empresas. Convierte de forma rápida y precisa archivos PDF e imágenes en texto que se puede buscar, exportar y leer a máquina.Mathpix ofrece una amplia gama de funciones...

Últimas herramientas de IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 11 meses

01.8K

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 11 meses

01.5K

Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Introducción general El proyecto Reader de Jina AI es una herramienta de código abierto (Reader open source address) que toma cualquier URL añadiéndole el prefijo https://r.jina.ai/转换成适合大型语言模型 (Large Languag...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 10 meses

01.7K

No es eso.