Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Últimas herramientas de IAActualizado hace 10 meses Sharenet.ai

1.7K 0

Introducción general

El proyecto Reader de Jina AI es una herramienta de código abierto (Dirección de código abierto Reader), que puede tomar cualquier URL añadiendo el prefijo https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) al formato de entrada, y que admite funciones como el modo de flujo dinámico y la lectura de imágenes.

Los usuarios pueden capturar fácilmente el contenido central de las páginas web y convertirlo en texto limpio y adecuado para el procesamiento LLM. La herramienta no sólo soporta texto de páginas web, sino que también maneja imágenes y archivos PDF, añadiendo automáticamente las etiquetas y el formato necesarios para que LLM pueda entender y procesar el contenido de forma más eficiente. El proyecto funciona con Node v18 y Firebase CLI y está disponible bajo licencia Apache 2.0.

Lista de funciones

Extracción de contenidos webConvierte cualquier URL a un formato de texto compatible con LLM.
reconocimiento de imágenes: Genera automáticamente etiquetas de descripción para las imágenes de las páginas web.
Lectura en PDF: Soporta la lectura de archivos PDF desde cualquier URL y su conversión a texto apto para LLM.
función de búsquedaObtenga la información más reciente de la web y conviértala a un formato compatible con LLM anteponiendo a la consulta el prefijo "s.jina.ai".
Alta concurrencia y fiabilidad: Proporciona alta accesibilidad y fiabilidad para soportar un gran número de peticiones concurrentes.

Utilizar la ayuda

Instalación y uso

Jina AI Reader no requiere instalación, los usuarios sólo tienen que añadir el prefijo "r.jina.ai" a la URL. Por ejemplo, para convertir la URL "https://en.wikipedia.org/wiki/Artificial_intelligence" a un formato de entrada compatible con LLM, basta con utilizar la siguiente URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Del mismo modo, para realizar una búsqueda en Internet y obtener resultados compatibles con LLM, anteponga a la consulta "s.jina.ai", por ejemplo:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Función Flujo de operaciones

Extracción de contenidos web::
- Introduzca la URL en su navegador con el prefijo, por ejemplo "https://r.jina.ai/https://example.com".
- Al pulsar la tecla Intro, Jina AI Reader extraerá automáticamente el contenido de la página web y lo convertirá a un formato de texto compatible con LLM.
- El contenido extraído se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
reconocimiento de imágenes::
- Al extraer el contenido de una página web, Jina AI Reader genera automáticamente etiquetas descriptivas para las imágenes de la página.
- Estas etiquetas se utilizarán como atributos alt de la imagen para facilitar a LLM la comprensión del contenido de la imagen durante el procesamiento.
Lectura en PDF::
- Introduzca la URL del PDF con un prefijo, como "https://r.jina.ai/https://example.com/document.pdf".
- Jina AI Reader leerá automáticamente el contenido del PDF y lo convertirá a un formato de texto compatible con LLM.
- El contenido convertido se mostrará en el navegador y el usuario podrá copiarlo directamente o seguir procesándolo.
función de búsqueda::
- Añada el prefijo "s.jina.ai" a la consulta, por ejemplo "https://s.jina.ai/your+query".
- Pulsa enter y Jina AI Reader obtendrá la información más reciente de la web y la convertirá en un formato de texto amigable para LLM.
- Los resultados de la búsqueda se mostrarán en el navegador y el usuario podrá copiarlos directamente o procesarlos posteriormente.

Configuración avanzada

Etiquetas de descripción de imágenesPor defecto, la descripción de la imagen está desactivada. Los usuarios pueden activarla estableciendo "x-with-generated-alt: true" en la cabecera de la solicitud.
Proxies y cookiesLos usuarios pueden establecer proxies y cookies en el encabezado de la solicitud para utilizar Jina AI Reader en un contexto específico.

modo streaming

Para procesar el contenido a medida que esté disponible, configure la cabecera de la petición en modo stream. Esto minimiza el tiempo que se tarda en recibir el primer byte. ejemplo en curl:

curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

Recomienda otra herramienta html to markdown

https://markdowndown.vercel.app/

Últimas herramientas de IA # AI Java Proyecto de código abierto # Extracción y limpieza de documentos

El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.

文心智能体平台：建立在完整分发渠道和商业闭环的智能体应用

Últimas herramientas de IA # Aplicación de carrocería inteligente

hace 4 meses

01.5K

Composio（SWE Kit）：一行代码集成150+工具，构建个性化AI智能体

Composio (SWE Kit): más de 150 herramientas integradas en una línea de código para crear inteligencias artificiales personalizadas.

Últimas herramientas de IA # AI Servicios abiertos # Programación de IA

hace 6 meses

01.6K

SkyReels-V1: modelos de vídeo de código abierto para generar vídeos de acción humana de alta calidad

Últimas herramientas de IA # AI Imagen a Vídeo # AI Java Proyecto de código abierto # AI de texto a vídeo

hace 5 meses

01.2K

Akuma：描绘涂鸦即可实时控制图像生成的AI画布

Últimas herramientas de IA # AI Doodle Generation Pintura

hace 8 meses

01.4K

Sin comentarios

Sin comentarios...

Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Introducción general

Lista de funciones

Utilizar la ayuda

Instalación y uso

Función Flujo de operaciones

Configuración avanzada

Tencent Smart Shadow: herramienta inteligente de creación de vídeo | AI Digital Man, kit de generación de anime

TusiArt: Comunidad gratuita de generación de imágenes online de modelos AI|Herramientas de dibujo AI|ComfyUI

Artículos relacionados

文心智能体平台：建立在完整分发渠道和商业闭环的智能体应用

Composio (SWE Kit): más de 150 herramientas integradas en una línea de código para crear inteligencias artificiales personalizadas.

SkyReels-V1: modelos de vídeo de código abierto para generar vídeos de acción humana de alta calidad

Akuma：描绘涂鸦即可实时控制图像生成的AI画布

Sin comentarios

Últimos artículos

Reader API: herramienta de extracción de contenidos web, conversión de HTML a Markdown

Introducción general

Lista de funciones

Utilizar la ayuda

Instalación y uso

Función Flujo de operaciones

Configuración avanzada

Tencent Smart Shadow: herramienta inteligente de creación de vídeo | AI Digital Man, kit de generación de anime

TusiArt: Comunidad gratuita de generación de imágenes online de modelos AI|Herramientas de dibujo AI|ComfyUI

Artículos relacionados

文心智能体平台：建立在完整分发渠道和商业闭环的智能体应用

Composio (SWE Kit): más de 150 herramientas integradas en una línea de código para crear inteligencias artificiales personalizadas.

SkyReels-V1: modelos de vídeo de código abierto para generar vídeos de acción humana de alta calidad

Akuma：描绘涂鸦即可实时控制图像生成的AI画布

Sin comentarios

Herramientas de IA seleccionadas

Últimos artículos