Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown
Introducción general
El proyecto Reader de Jina AI es una herramienta de código abierto (Dirección de código abierto Reader), que puede tomar cualquier URL añadiendo el prefijo https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) al formato de entrada, y que admite funciones como el modo de flujo dinámico y la lectura de imágenes.
Los usuarios pueden capturar fácilmente el contenido central de las páginas web y convertirlo en texto limpio y adecuado para el procesamiento LLM. La herramienta no sólo soporta texto de páginas web, sino que también maneja imágenes y archivos PDF, añadiendo automáticamente las etiquetas y el formato necesarios para que LLM pueda entender y procesar el contenido de forma más eficiente. El proyecto funciona con Node v18 y Firebase CLI y está disponible bajo licencia Apache 2.0.

Lista de funciones
- Extracción de contenidos webConvierte cualquier URL a un formato de texto compatible con LLM.
- reconocimiento de imágenes: Genera automáticamente etiquetas de descripción para las imágenes de las páginas web.
- Lectura en PDF: Soporta la lectura de archivos PDF desde cualquier URL y su conversión a texto apto para LLM.
- función de búsquedaObtenga la información más reciente de la web y conviértala a un formato compatible con LLM anteponiendo a la consulta el prefijo "s.jina.ai".
- Alta concurrencia y fiabilidad: Proporciona alta accesibilidad y fiabilidad para soportar un gran número de peticiones concurrentes.
Utilizar la ayuda
Instalación y uso
Jina AI Reader no requiere instalación, los usuarios sólo tienen que añadir el prefijo "r.jina.ai" a la URL. Por ejemplo, para convertir la URL "https://en.wikipedia.org/wiki/Artificial_intelligence" a un formato de entrada compatible con LLM, basta con utilizar la siguiente URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
Del mismo modo, para realizar una búsqueda en Internet y obtener resultados compatibles con LLM, anteponga a la consulta "s.jina.ai", por ejemplo:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
Función Flujo de operaciones
- Extracción de contenidos web::
- Introduzca la URL en su navegador con el prefijo, por ejemplo "https://r.jina.ai/https://example.com".
- Al pulsar la tecla Intro, Jina AI Reader extraerá automáticamente el contenido de la página web y lo convertirá a un formato de texto compatible con LLM.
- El contenido extraído se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
- reconocimiento de imágenes::
- Al extraer el contenido de una página web, Jina AI Reader genera automáticamente etiquetas descriptivas para las imágenes de la página.
- Estas etiquetas se utilizarán como atributos alt de la imagen para facilitar a LLM la comprensión del contenido de la imagen durante el procesamiento.
- Lectura en PDF::
- Introduzca la URL del PDF con un prefijo, como "https://r.jina.ai/https://example.com/document.pdf".
- Jina AI Reader leerá automáticamente el contenido del PDF y lo convertirá a un formato de texto compatible con LLM.
- El contenido convertido se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
- función de búsqueda::
- Añada el prefijo "s.jina.ai" a la consulta, por ejemplo "https://s.jina.ai/your+query".
- Pulsa enter y Jina AI Reader obtendrá la información más reciente de la web y la convertirá en un formato de texto amigable para LLM.
- Los resultados de la búsqueda se mostrarán en el navegador y el usuario podrá copiarlos directamente o procesarlos posteriormente.
Configuración avanzada
- Etiquetas de descripción de imágenesPor defecto, la descripción de la imagen está desactivada. Los usuarios pueden activarla estableciendo "x-with-generated-alt: true" en la cabecera de la solicitud.
- Proxies y cookiesLos usuarios pueden establecer proxies y cookies en el encabezado de la solicitud para utilizar Jina AI Reader en un contexto específico.
modo streaming
Para procesar el contenido a medida que esté disponible, configure la cabecera de la petición en modo stream. Esto minimiza el tiempo que se tarda en recibir el primer byte. ejemplo en curl:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
Recomienda otra herramienta html to markdown
https://markdowndown.vercel.app/
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...