리더 API: 웹 콘텐츠 추출 도구, HTML을 마크다운으로 변환하는 도구

최신 AI 도구9개월 전 업데이트 Sharenet.ai
1.4K 0
Trae

일반 소개

 

Jina AI의 리더 프로젝트는 오픈 소스 도구(리더 오픈 소스 주소), 입력 형식에 접두사 https://r.jina.ai/转换成适合大型语言模型(대형 언어 모델, LLM)를 추가하여 모든 URL을 사용할 수 있으며 동적 스트리밍 모드 및 이미지 읽기와 같은 기능을 지원합니다.

사용자는 웹 페이지의 핵심 콘텐츠를 쉽게 캡처하여 LLM 처리에 적합한 깔끔한 텍스트로 변환할 수 있습니다. 이 도구는 웹 페이지 텍스트뿐만 아니라 이미지와 PDF 파일도 처리하며, 필요한 태그와 서식을 자동으로 추가하여 LLM이 콘텐츠를 보다 효율적으로 이해하고 처리할 수 있도록 지원합니다. 이 프로젝트는 Node v18 및 Firebase CLI에서 실행되며 Apache 2.0 라이선스에 따라 사용할 수 있습니다.

 

Reader API:网页内容提取工具,HTML转换为Markdown格式

 

 

기능 목록

  • 웹 콘텐츠 추출URL을 LLM 친화적인 텍스트 형식으로 변환합니다.
  • 이미지 인식웹 페이지의 이미지에 대한 설명 태그를 자동으로 생성합니다.
  • PDF 읽기모든 URL에서 PDF 파일을 읽고 LLM에 적합한 텍스트로 변환하는 기능을 지원합니다.
  • 검색 기능웹에서 최신 정보를 가져와서 쿼리 앞에 "s.jina.ai"를 붙여 LLM 친화적인 형식으로 변환합니다.
  • 높은 동시성 및 안정성높은 접근성과 안정성을 제공하여 많은 수의 동시 요청을 지원합니다.

 

 

도움말 사용

설치 및 사용

Jina AI Reader는 설치가 필요하지 않으며, 사용자는 URL에 접두사 'r.jina.ai'를 추가하기만 하면 됩니다. 예를 들어 URL "https://en.wikipedia.org/wiki/Artificial_intelligence"을 LLM 친화적인 입력 형식으로 변환하려면 다음 URL을 사용하면 됩니다:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

마찬가지로 웹 검색을 수행하여 LLM 친화적인 결과를 얻으려면 쿼리 앞에 "s.jina.ai"와 같은 접두사를 붙입니다:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

기능 작동 흐름

  1. 웹 콘텐츠 추출::
    • 브라우저에 접두사(예: "https://r.jina.ai/https://example.com")와 함께 URL을 입력합니다.
    • 엔터 키를 누르면 Jina AI Reader가 자동으로 웹 페이지 콘텐츠를 추출하여 LLM 친화적인 텍스트 형식으로 변환합니다.
    • 추출된 콘텐츠는 브라우저에 표시되며 사용자는 이를 직접 복사하거나 추가 가공할 수 있습니다.
  2. 이미지 인식::
    • 웹 페이지의 콘텐츠를 추출할 때 Jina AI Reader는 페이지의 이미지에 대한 설명 태그를 자동으로 생성합니다.
    • 이러한 태그는 이미지의 대체 속성으로 사용되어 처리 중에 LLM이 이미지 콘텐츠를 쉽게 이해할 수 있도록 합니다.
  3. PDF 읽기::
    • "https://r.jina.ai/https://example.com/document.pdf"와 같은 접두사와 함께 PDF URL을 입력합니다.
    • Jina AI Reader는 PDF 콘텐츠를 자동으로 읽고 LLM 친화적인 텍스트 형식으로 변환합니다.
    • 변환된 콘텐츠는 브라우저에 표시되며 사용자가 직접 복사하거나 추가 처리를 할 수 있습니다.
  4. 검색 기능::
    • 쿼리에 접두사 "s.jina.ai"를 추가합니다(예: "https://s.jina.ai/your+query").
    • 엔터를 누르면 Jina AI Reader가 웹에서 최신 정보를 가져와 LLM 친화적인 텍스트 형식으로 변환합니다.
    • 검색 결과가 브라우저에 표시되며 사용자는 이를 직접 복사하거나 추가로 처리할 수 있습니다.

고급 설정

  • 이미지 설명 태그기본적으로 이미지 설명 태그 기능은 꺼져 있습니다. 사용자는 요청 헤더에 "x-with-generated-alt: true"를 설정하여 이 기능을 활성화할 수 있습니다.
  • 프록시 및 쿠키프록시 및 쿠키 설정 : 사용자는 요청 헤더에서 프록시와 쿠키를 설정하여 특정 컨텍스트에서 Jina AI Reader를 사용할 수 있습니다.

 

스트리밍 모드
콘텐츠를 사용할 수 있게 되는 즉시 처리하려면 요청 헤더를 스트림 모드로 설정하세요. 이렇게 하면 첫 바이트를 수신하는 데 걸리는 시간을 최소화할 수 있습니다:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com

 

 

다른 HTML 마크다운 도구 추천

https://markdowndown.vercel.app/

© 저작권 정책
AiPPT

관련 문서

댓글 없음

없음
댓글 없음...