文档提取与清洗

ordenar

Correo electrónico:actualización hojear felicitaciones

GPT-Crawler: rastreo automático de contenidos web para generar documentos de bases de conocimiento

Introducción general GPT-Crawler es una herramienta de código abierto desarrollada por el equipo BuilderIO y alojada en GitHub. Rastrea el contenido de las páginas introduciendo una o varias URL de sitios web, generando archivos de conocimiento estructurado (output.jso...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 1 mes

01.6K

OneFileLLM: Integración de múltiples fuentes de datos en un único archivo de texto

Introducción completa OneFileLLM es una herramienta de línea de comandos de código abierto diseñada para consolidar múltiples fuentes de datos en un único archivo de texto para facilitar la entrada en grandes modelos lingüísticos (LLM). Permite procesar repositorios de GitHub, artículos de ArXiv, transcripciones de vídeos de YouTube,...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 3 meses

0477

Chatlog: herramienta de código abierto para extraer y consultar los registros de chat de WeChat

Introducción General Chatlog es una herramienta de código abierto que se centra en la extracción y consulta de registros de chat de la base de datos local de WeChat. Es compatible con las versiones 3.x y 4.0 de WeChat, tanto para sistemas Windows como macOS. Los usuarios pueden utilizar la línea de comandos, la interfaz de terminal o H...

Últimas herramientas de IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 3 meses

0670

VOP: herramienta de OCR para extraer diagramas complejos y fórmulas matemáticas

Introducción completa Versatile OCR Program es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto diseñada para trabajar con documentos académicos y educativos complejos. Puede extraer texto, tablas, fórmulas matemáticas, diagramas y esquemas de PDF, imágenes y otros documentos y generar...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 3 meses

0585

DevDocs: un servicio MCP para rastrear y organizar rápidamente la documentación técnica

Introducción general DevDocs es una herramienta de código abierto completamente gratuita desarrollada por el equipo CyberAGI y alojada en GitHub. Diseñada para programadores y desarrolladores de software, parte de la URL de un documento técnico, rastrea automáticamente las páginas relevantes y las organiza en un conciso ma...

Últimas herramientas de IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 3 meses

0596

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Introducción Completa Analiza automáticamente el diseño de documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR y puede convertir PDF escaneados en texto con capacidad de búsqueda. Se ejecuta en Docker y proporciona dos modelos...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 3 meses

0638

Convierte gratis varios archivos a formato Markdown según Workers AI

Introducción general serverless-markdown-convertor es una herramienta gratuita y de código abierto, basada en Cloudflare Worker y Workers AI, que convierte una amplia gama de archivos a Markdow...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 4 meses

0740

pure.md: inserte "pure.md/" delante de la URL para extraer el texto limpio.

Introducción general pure.md es una herramienta para agentes de AI y desarrolladores que se centra en convertir rápidamente contenido web o archivos a formato Markdown. Se salta las restricciones anti-crawler a través de servicios proxy, extrae los datos centrales de una página web, y produce un ...

Últimas herramientas de IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 4 meses

0725

Cloudsquid: cargue documentos y describa los requisitos para la extracción inteligente de datos estructurados

Introducción general Cloudsquid es una empresa fundada en 2023 en Berlín, Alemania, centrada en simplificar el procesamiento de documentos con inteligencia artificial. Su producto principal es una plataforma de extracción de datos en línea que permite a los usuarios simplemente subir documentos como PDF, imágenes, audio, vídeo, etc. y simplemente indicar que necesitan extraer...

Últimas herramientas de IA # Extracción y limpieza de documentos

hace 4 meses

0704

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Introducción general PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Fue desarrollado por oomol-lab y está alojado en GitHub para los usuarios que les gusta organizar sus libros electrónicos. La herramienta funciona a través de este ...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 4 meses

0893

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Introducción Supametas.AI es una plataforma de procesamiento de datos que se especializa en la organización del desorden de páginas web, documentos, audio y vídeo en datos estructurados que la IA puede utilizar. Admite la recopilación de datos de múltiples fuentes, incluidos enlaces web, API, archivos locales, etc., y su posterior salida como JSON ...

Últimas herramientas de IA # AI Servicios abiertos # Extracción y limpieza de documentos

hace 4 meses

0711

MarkPDFDown: convertir PDF a Markdown basándose en un modelo multimodal

Introducción general MarkPDFDown es una herramienta de código abierto. Utiliza el Multimodal Big Language Model para convertir archivos PDF al formato Markdown. El desarrollador es el usuario de GitHub jorben. el objetivo de esta herramienta es simple: hacer que los documentos PDF ...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 4 meses

0905

SmolDocling: un modelo de lenguaje visual para el tratamiento eficaz de documentos de pequeño volumen

Introducción completa SmolDocling es un Modelo de Lenguaje Visual (VLM) desarrollado por el equipo ds4sd en colaboración con IBM, construido sobre SmolVLM-256M y alojado en la plataforma Hugging Face. Es de pequeño tamaño, sólo ...

Últimas herramientas de IA # AI Java Proyecto de código abierto # OCR # Extracción y limpieza de documentos

hace 4 meses

0870

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Servidor MCP de Markdownify: convierte diversos contenidos al formato Markdown basado en el protocolo MCP.

Introducción general Markdownify MCP Server es una herramienta de código abierto basada en el Model Context Protocol, alojada en GitHub por el desarrollador Zach Caceres ...

Últimas herramientas de IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 4 meses

0963

Firecrawl MCP Server：基于 Firecrawl 的网页爬虫 MCP 服务

Firecrawl MCP Server: Servicio MCP de rastreo web basado en Firecrawl

Introducción general Firecrawl MCP Server es una herramienta de código abierto desarrollada por MendableAI, basada en la implementación del protocolo Model Context Protocol (MCP), con Firecrawl A...

Últimas herramientas de IA # AI Java Proyecto de código abierto Servicios MCP ## Extracción y limpieza de documentos

hace 4 meses

01.1K

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 4 meses

0894

Mistral OCR: 94,89% Precisión global, 1.000 páginas/30 segundos, sólo 1 $.

En la larga historia de la civilización humana, cada salto en la forma de adquirir y analizar la información ha contribuido profundamente al progreso social. Desde los antiguos jeroglíficos hasta el papiro portátil, pasando por la posterior aparición de la imprenta y la actual ola digital, cada innovación tecnológica ha ampliado enormemente el paradigma de la difusión del conocimiento humano...

Últimas herramientas de IA # AI Servicios abiertos # OCR # Extracción y limpieza de documentos

hace 4 meses

0785

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.9K

olmOCR: conversión de documentos PDF a texto, compatibilidad con tablas, fórmulas y reconocimiento de contenido manuscrito.

Introducción general olmOCR es una herramienta de código abierto desarrollada por el equipo AllenNLP del Allen Institute for Artificial Intelligence (AI2) que se centra en convertir archivos PDF...

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

hace 5 meses

01.1K

Más información