Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Últimas herramientas de IAActualizado hace 9 meses Sharenet.ai
1.4K 0
Trae

Introducción general

 

El proyecto Reader de Jina AI es una herramienta de código abierto (Dirección de código abierto Reader), que puede tomar cualquier URL añadiendo el prefijo https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) al formato de entrada, y que admite funciones como el modo de flujo dinámico y la lectura de imágenes.

Los usuarios pueden capturar fácilmente el contenido central de las páginas web y convertirlo en texto limpio y adecuado para el procesamiento LLM. La herramienta no sólo soporta texto de páginas web, sino que también maneja imágenes y archivos PDF, añadiendo automáticamente las etiquetas y el formato necesarios para que LLM pueda entender y procesar el contenido de forma más eficiente. El proyecto funciona con Node v18 y Firebase CLI y está disponible bajo licencia Apache 2.0.

 

Reader API:网页内容提取工具,HTML转换为Markdown格式

 

 

Lista de funciones

  • Extracción de contenidos webConvierte cualquier URL a un formato de texto compatible con LLM.
  • reconocimiento de imágenes: Genera automáticamente etiquetas de descripción para las imágenes de las páginas web.
  • Lectura en PDF: Soporta la lectura de archivos PDF desde cualquier URL y su conversión a texto apto para LLM.
  • función de búsquedaObtenga la información más reciente de la web y conviértala a un formato compatible con LLM anteponiendo a la consulta el prefijo "s.jina.ai".
  • Alta concurrencia y fiabilidad: Proporciona alta accesibilidad y fiabilidad para soportar un gran número de peticiones concurrentes.

 

 

Utilizar la ayuda

Instalación y uso

Jina AI Reader no requiere instalación, los usuarios sólo tienen que añadir el prefijo "r.jina.ai" a la URL. Por ejemplo, para convertir la URL "https://en.wikipedia.org/wiki/Artificial_intelligence" a un formato de entrada compatible con LLM, basta con utilizar la siguiente URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Del mismo modo, para realizar una búsqueda en Internet y obtener resultados compatibles con LLM, anteponga a la consulta "s.jina.ai", por ejemplo:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Función Flujo de operaciones

  1. Extracción de contenidos web::
    • Introduzca la URL en su navegador con el prefijo, por ejemplo "https://r.jina.ai/https://example.com".
    • Al pulsar la tecla Intro, Jina AI Reader extraerá automáticamente el contenido de la página web y lo convertirá a un formato de texto compatible con LLM.
    • El contenido extraído se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
  2. reconocimiento de imágenes::
    • Al extraer el contenido de una página web, Jina AI Reader genera automáticamente etiquetas descriptivas para las imágenes de la página.
    • Estas etiquetas se utilizarán como atributos alt de la imagen para facilitar a LLM la comprensión del contenido de la imagen durante el procesamiento.
  3. Lectura en PDF::
    • Introduzca la URL del PDF con un prefijo, como "https://r.jina.ai/https://example.com/document.pdf".
    • Jina AI Reader leerá automáticamente el contenido del PDF y lo convertirá a un formato de texto compatible con LLM.
    • El contenido convertido se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
  4. función de búsqueda::
    • Añada el prefijo "s.jina.ai" a la consulta, por ejemplo "https://s.jina.ai/your+query".
    • Pulsa enter y Jina AI Reader obtendrá la información más reciente de la web y la convertirá en un formato de texto amigable para LLM.
    • Los resultados de la búsqueda se mostrarán en el navegador y el usuario podrá copiarlos directamente o procesarlos posteriormente.

Configuración avanzada

  • Etiquetas de descripción de imágenesPor defecto, la descripción de la imagen está desactivada. Los usuarios pueden activarla estableciendo "x-with-generated-alt: true" en la cabecera de la solicitud.
  • Proxies y cookiesLos usuarios pueden establecer proxies y cookies en el encabezado de la solicitud para utilizar Jina AI Reader en un contexto específico.

 

modo streaming
Para procesar el contenido a medida que esté disponible, configure la cabecera de la petición en modo stream. Esto minimiza el tiempo que se tarda en recibir el primer byte. ejemplo en curl:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

Recomienda otra herramienta html to markdown

https://markdowndown.vercel.app/

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

ninguno
Sin comentarios...