Modelado visual del lenguaje para la extracción eficaz de texto PDF - olmOCR

Noticias AIPublicado hace 5 meses Sharenet.ai

783 0

Los modelos lingüísticos (LM) se han convertido en un motor central de la innovación en tecnología de IA. Desde el preentrenamiento hasta las aplicaciones en el mundo real, los modelos lingüísticos se basan en datos de texto plano para funcionar. Ya se trate de realizar billones de fichas o para aplicaciones de IA con gran cantidad de datos, la calidad de los datos de texto es crucial. Los datos de texto de baja calidad no sólo pueden conducir a un proceso de entrenamiento inestable y a un rendimiento degradado del modelo, sino que también pueden producir resultados menos que óptimos cuando son solicitados por los usuarios.

Sin embargo, no todos los datos necesarios para la modelización lingüística existen en un formato fácilmente analizable, como las páginas web. De hecho, en muchos ámbitos, la información valiosa se almacena en archivos de documentos electrónicos, sobre todo en el formato PDF, que plantea retos únicos en el tratamiento de datos porque se diseñó originalmente para presentar el contenido en una página de tamaño fijo en lugar de preservar la estructura lógica del texto. En PDF, por ejemplo, el formato almacena el texto como una serie de códigos de caracteres y registra información sobre la ubicación y el formato de cada carácter en la página. Aunque este almacenamiento es muy eficaz, dificulta enormemente la recuperación de unidades de texto como títulos, párrafos, tablas y fórmulas a partir de ellos y su disposición en el orden de lectura correcto.

Para un mejor manejo de los documentos electrónicos, nos enorgullece presentar el olmOCRolmOCR es un conjunto de herramientas de alto rendimiento diseñado para convertir PDFs e imágenes de documentos en texto plano claro y estructurado. olmOCR es único en los siguientes aspectos:

rendimiento superior

Para garantizar olmOCR Para extraer con precisión el texto de una amplia gama de documentos, el equipo de desarrollo puso a punto el modelo utilizando 250.000 páginas PDF de diversas fuentes. Estos documentos PDF procedían de una amplia gama de fuentes, incluyendo tanto documentos digitales nativos como copias escaneadas de libros de dominio público. Este variado conjunto de datos garantiza que olmOCR mantenga un excelente rendimiento en una amplia gama de documentos.

Extremadamente rentable

El coste del conjunto de herramientas olmOCR para procesar un millón de páginas de documentos PDF es de unos 190 dólares, lo que supone aproximadamente 1/32 del coste de procesar por lotes el mismo número de páginas utilizando la API GPT-4o. Esto reduce significativamente la barrera económica para el procesamiento de documentos.

Salida en formato Markdown

olmOCR genera texto en formato Markdown, fácil de analizar y procesar. Puede manejar fórmulas, tablas e incluso contenido manuscrito, y garantiza que incluso los diseños de documentos más complejos con varias columnas se impriman en el orden de lectura correcto.

Totalmente funcional, nada más sacarlo de la caja

olmOCR es un pipeline totalmente optimizado que funciona tanto con SGLang como con vLLM El motor de inferencia funciona en tándem. Es escalable desde una sola GPU hasta cientos de ellas y cuenta con heurística integrada para gestionar los fallos de análisis y los errores de metadatos más comunes.

Código totalmente abierto

olmOCR se basa en Qwen2-VL-7B-Instruct. El equipo de desarrollo ha puesto a disposición del público todos los componentes del conjunto de herramientas, incluidos los pesos del modelo, los conjuntos de datos ajustados y el código de entrenamiento e inferencia.

Para ver cómo olmOCR se compara con otras herramientas líderes de extracción de documentos, y para aprender más sobre el proceso de construcción de olmOCR, siga los enlaces. Si está listo para probar olmOCR, visite el repositorio de GitHub y comience a utilizar olmOCR en sus proyectos.

Comparación de herramientas interactivas

Mediante la comparación de documentos de muestra, puede visualizar el rendimiento de olmOCR en comparación con otras herramientas líderes de extracción de documentos. Utilizando las pestañas de abajo, puede ver los resultados de las diferentes herramientas y conocer las diferencias clave en la calidad del procesamiento.

El camino hacia la construcción de olmOCR

Las técnicas tradicionales de OCR a menudo se enfrentan a muchos retos cuando tratan con documentos PDF con diseños complejos. Con el fin de obtener datos de alta calidad para entrenar olmOCR, el equipo de desarrollo ha desarrollado de forma innovadora un método denominado anclaje de documentos La técnica. El método aprovecha al máximo el texto y los metadatos existentes en el archivo PDF para mejorar significativamente la calidad de la extracción de texto.

Figura 1: muestra cómo funciona la técnica de anclaje de documentos en una página típica. Se extraen las ubicaciones de las imágenes y los bloques de texto pertinentes, se vinculan entre sí y se insertan en el modelo. El texto anclado se utiliza junto con la imagen rasterizada de la página cuando se solicita una versión en texto plano del documento al VLM (Visual Language Model) запросить.

Con la ayuda de técnicas de anclaje de documentos, el equipo de desarrollo utilizó GPT-4o para marcar 250.000 páginas. El conjunto de datos procede de una amplia gama de fuentes, incluidos documentos PDF de acceso público extraídos de la web y libros de dominio público escaneados de Internet Archive. El conjunto de datos es de varios tipos: 60% para documentos académicos, 12% para folletos, 11% para documentos jurídicos, 6% para tablas y gráficos, 5% para diapositivas y 4% para otros tipos de documentos.

Para el entrenamiento del modelo, el equipo de olmOCR afinó el punto de control Qwen2-VL-7B-Instruct y utilizó SGLang con el fin de lograr un procesamiento por lotes a gran escala y optimizar el canal de inferencia. Para lograr el procesamiento por lotes a gran escala y optimizar la tubería de inferencia, utilizaron SGLang. olmOCR fue capaz de convertir un millón de páginas PDF por sólo 190 dólares, lo que supone 1/32 del coste de la API GPT-4o. Los resultados experimentales muestran que olmOCR no sólo reduce significativamente el coste en comparación con otras herramientas OCR populares, sino que también demuestra un rendimiento superior en la evaluación manual. Los resultados experimentales muestran que olmOCR no sólo reduce significativamente los costes en comparación con otras herramientas OCR populares, sino que también demuestra un rendimiento superior en la evaluación manual.

Figura 2: Boxplot de la clasificación ELO de olmOCR frente a otras herramientas populares.

Para evaluar a fondo el rendimiento de olmOCR, el equipo comparó sus resultados con los de otras herramientas populares de extracción de PDF, como Marker, MinerU y GOT-OCR 2.0. Se invitó a 11 investigadores a realizar valoraciones por pares. En 2017 documentos PDF, se recopilaron 452 conjuntos de comparaciones significativas y se cuantificó el rendimiento calculando las puntuaciones ELO. Los resultados muestran que olmOCR tiene una puntuación ELO de más de 1800, superando significativamente a todos los competidores. En una comparación directa con otras herramientas, olmOCR obtuvo una puntuación de 61,3% frente a la de la competencia. Marcador fue preferido en la comparación de 58.6% con GOT-OCR y en la comparación de la MinerU Esta proporción es aún mayor en la comparación de 71,4%, lo que demuestra plenamente la excelente capacidad de olmOCR para generar textos claros y bien estructurados.

Puede consultar información más detallada y otros resultados de la evaluación en el Informe Técnico.

Cómo utilizar olmOCR

La primera versión de olmOCR incluye una demostración, ponderaciones del modelo, conjuntos de datos ajustados, un breve informe técnico y, lo que es más importante, un proceso de inferencia eficaz.

Visita el repositorio de GitHub para instalar olmOCR y revisar la documentación. A continuación, en una máquina con GPU, basta con ejecutar el siguiente comando:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

El equipo de desarrollo espera publicar más pruebas comparativas cuantitativas en un futuro próximo para ayudar a desarrollar mejores modelos de extracción de PDF y evaluar su rendimiento de forma más eficaz.