OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: Integración de múltiples fuentes de datos en un único archivo de texto

Introducción completa OneFileLLM es una herramienta de línea de comandos de código abierto diseñada para consolidar múltiples fuentes de datos en un único archivo de texto para facilitar la entrada en grandes modelos lingüísticos (LLM). Permite procesar repositorios de GitHub, artículos de ArXiv, transcripciones de vídeos de YouTube,...
hace 3 meses
0477
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: herramienta de código abierto para extraer y consultar los registros de chat de WeChat

Introducción General Chatlog es una herramienta de código abierto que se centra en la extracción y consulta de registros de chat de la base de datos local de WeChat. Es compatible con las versiones 3.x y 4.0 de WeChat, tanto para sistemas Windows como macOS. Los usuarios pueden utilizar la línea de comandos, la interfaz de terminal o H...
hace 3 meses
0670
VOP:提取复杂图表与数学公式的OCR工具

VOP: herramienta de OCR para extraer diagramas complejos y fórmulas matemáticas

Introducción completa Versatile OCR Program es una herramienta de reconocimiento óptico de caracteres (OCR) de código abierto diseñada para trabajar con documentos académicos y educativos complejos. Puede extraer texto, tablas, fórmulas matemáticas, diagramas y esquemas de PDF, imágenes y otros documentos y generar...
hace 3 meses
0585
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: un servicio MCP para rastrear y organizar rápidamente la documentación técnica

Introducción general DevDocs es una herramienta de código abierto completamente gratuita desarrollada por el equipo CyberAGI y alojada en GitHub. Diseñada para programadores y desarrolladores de software, parte de la URL de un documento técnico, rastrea automáticamente las páginas relevantes y las organiza en un conciso ma...
hace 3 meses
0596
自动解析PDF内容并提取文字与表格的开源服务

Analice automáticamente el contenido del PDF y extraiga el texto y las tablas de los servicios de código abierto

Introducción Completa Analiza automáticamente el diseño de documentos PDF, identifica texto, títulos, imágenes, tablas, fórmulas y otros elementos de la página, y determina su orden correcto. La herramienta es compatible con la funcionalidad OCR y puede convertir PDF escaneados en texto con capacidad de búsqueda. Se ejecuta en Docker y proporciona dos modelos...
hace 3 meses
0638
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: cargue documentos y describa los requisitos para la extracción inteligente de datos estructurados

Introducción general Cloudsquid es una empresa fundada en 2023 en Berlín, Alemania, centrada en simplificar el procesamiento de documentos con inteligencia artificial. Su producto principal es una plataforma de extracción de datos en línea que permite a los usuarios simplemente subir documentos como PDF, imágenes, audio, vídeo, etc. y simplemente indicar que necesitan extraer...
hace 4 meses
0704
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Introducción general PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Fue desarrollado por oomol-lab y está alojado en GitHub para los usuarios que les gusta organizar sus libros electrónicos. La herramienta funciona a través de este ...
hace 4 meses
0893
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: Extracción de datos no estructurados en datos de alta disponibilidad LLM

Introducción Supametas.AI es una plataforma de procesamiento de datos que se especializa en la organización del desorden de páginas web, documentos, audio y vídeo en datos estructurados que la IA puede utilizar. Admite la recopilación de datos de múltiples fuentes, incluidos enlaces web, API, archivos locales, etc., y su posterior salida como JSON ...
hace 4 meses
0711
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).
hace 4 meses
0894
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% Precisión global, 1.000 páginas/30 segundos, sólo 1 $.

En la larga historia de la civilización humana, cada salto en la forma de adquirir y analizar la información ha contribuido profundamente al progreso social. Desde los antiguos jeroglíficos hasta el papiro portátil, pasando por la posterior aparición de la imprenta y la actual ola digital, cada innovación tecnológica ha ampliado enormemente el paradigma de la difusión del conocimiento humano...
hace 4 meses
0785
Marker:快速将PDF转换为Markdown的开源工具

Marker: herramientas de código abierto para convertir rápidamente PDF a Markdown

Introducción general Marker es una herramienta de procesamiento de documentos basada en aprendizaje profundo diseñada para convertir archivos PDF a formato Markdown de forma rápida y precisa. Es compatible con una amplia gama de tipos de documentos y está especialmente optimizado para la conversión de libros y artículos científicos.Marker es capaz de eliminar los encabezados...
hace 5 meses
01.9K