Reader API : outil d'extraction de contenu web, conversion de HTML en Markdown

Derniers outils d'IAMise à jour il y a 9 mois Sharenet.ai
1.4K 0
Trae

Introduction générale

 

Le projet Reader de Jina AI est un outil open source (Adresse du lecteur open source), qui peut prendre n'importe quelle URL en ajoutant le préfixe https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) au format d'entrée, et qui prend en charge des fonctions telles que le mode de streaming dynamique et la lecture d'images.

Les utilisateurs peuvent facilement capturer le contenu principal des pages Web et le convertir en texte propre et adapté au traitement LLM. L'outil prend en charge non seulement le texte des pages web, mais aussi les images et les fichiers PDF, en ajoutant automatiquement les balises et le formatage nécessaires pour que LLM puisse comprendre et traiter le contenu plus efficacement. Le projet fonctionne avec Node v18 et Firebase CLI et est disponible sous la licence Apache 2.0.

 

Reader API:网页内容提取工具,HTML转换为Markdown格式

 

 

Liste des fonctions

  • Extraction de contenu webConvertissez n'importe quelle URL en un format de texte adapté à LLM.
  • reconnaissance d'images: génère automatiquement des balises de description pour les images dans les pages web.
  • Lecture du PDFLe système d'information sur les droits de l'homme : Il permet de lire des fichiers PDF à partir de n'importe quelle URL et de les convertir en texte adapté au LLM.
  • fonction de recherche: Obtenez les informations les plus récentes sur le web et convertissez-les dans un format adapté à LLM en faisant précéder la requête de "s.jina.ai".
  • Concurrence et fiabilité élevéesLe système de gestion de l'information (SGI) : Il offre une grande accessibilité et une grande fiabilité pour prendre en charge un grand nombre de demandes simultanées.

 

 

Utiliser l'aide

Installation et utilisation

Jina AI Reader ne nécessite pas d'installation, les utilisateurs doivent simplement ajouter le préfixe "r.jina.ai" à l'URL. Par exemple, pour convertir l'URL "https://en.wikipedia.org/wiki/Artificial_intelligence" en un format d'entrée adapté à LLM, il suffit d'utiliser l'URL suivante :

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

De même, pour effectuer une recherche sur le web et obtenir des résultats adaptés au LLM, préfixez la requête par "s.jina.ai", par exemple :

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Fonction Opération Déroulement

  1. Extraction de contenu web: :
    • Saisissez l'URL dans votre navigateur avec le préfixe, par exemple "https://r.jina.ai/https://example.com".
    • En appuyant sur la touche Entrée, Jina AI Reader extraira automatiquement le contenu de la page web et le convertira dans un format de texte adapté à LLM.
    • Le contenu extrait s'affiche dans le navigateur et l'utilisateur peut le copier directement ou le traiter ultérieurement.
  2. reconnaissance d'images: :
    • Lors de l'extraction du contenu d'une page web, Jina AI Reader génère automatiquement des balises descriptives pour les images de la page.
    • Ces balises seront utilisées comme attributs alt de l'image pour faciliter la compréhension du contenu de l'image par LLM pendant le traitement.
  3. Lecture du PDF: :
    • Saisissez l'URL du PDF avec un préfixe, tel que "https://r.jina.ai/https://example.com/document.pdf".
    • Jina AI Reader lira automatiquement le contenu du PDF et le convertira en un format de texte adapté à LLM.
    • Le contenu converti s'affiche dans le navigateur et l'utilisateur peut le copier directement ou le traiter ultérieurement.
  4. fonction de recherche: :
    • Ajoutez le préfixe "s.jina.ai" à la requête, par exemple "https://s.jina.ai/your+query".
    • Appuyez sur entrée et Jina AI Reader récupérera les dernières informations du web et les convertira dans un format de texte convivial pour LLM.
    • Les résultats de la recherche s'affichent dans le navigateur et l'utilisateur peut les copier directement ou les traiter ultérieurement.

Paramètres avancés

  • Balises de description d'imageDescription de l'image : Par défaut, la fonctionnalité de description de l'image est désactivée. Les utilisateurs peuvent l'activer en définissant "x-with-generated-alt : true" dans l'en-tête de la requête.
  • Proxies et cookiesLes utilisateurs peuvent définir des proxys et des cookies dans l'en-tête de la requête afin d'utiliser Jina AI Reader dans un contexte spécifique.

 

mode streaming
Pour traiter le contenu au fur et à mesure qu'il est disponible, définissez l'en-tête de la requête en mode flux. Cela réduit le temps nécessaire à la réception du premier octet. exemple en curl :
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

Recommander un autre outil de conversion de html en markdown

https://markdowndown.vercel.app/

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

aucun
Pas de commentaires...