리더 API: 웹 콘텐츠 추출 도구, HTML을 마크다운으로 변환하는 도구
일반 소개
Jina AI의 리더 프로젝트는 오픈 소스 도구(리더 오픈 소스 주소), 입력 형식에 접두사 https://r.jina.ai/转换成适合大型语言模型(대형 언어 모델, LLM)를 추가하여 모든 URL을 사용할 수 있으며 동적 스트리밍 모드 및 이미지 읽기와 같은 기능을 지원합니다.
사용자는 웹 페이지의 핵심 콘텐츠를 쉽게 캡처하여 LLM 처리에 적합한 깔끔한 텍스트로 변환할 수 있습니다. 이 도구는 웹 페이지 텍스트뿐만 아니라 이미지와 PDF 파일도 처리하며, 필요한 태그와 서식을 자동으로 추가하여 LLM이 콘텐츠를 보다 효율적으로 이해하고 처리할 수 있도록 지원합니다. 이 프로젝트는 Node v18 및 Firebase CLI에서 실행되며 Apache 2.0 라이선스에 따라 사용할 수 있습니다.

기능 목록
- 웹 콘텐츠 추출URL을 LLM 친화적인 텍스트 형식으로 변환합니다.
- 이미지 인식웹 페이지의 이미지에 대한 설명 태그를 자동으로 생성합니다.
- PDF 읽기모든 URL에서 PDF 파일을 읽고 LLM에 적합한 텍스트로 변환하는 기능을 지원합니다.
- 검색 기능웹에서 최신 정보를 가져와서 쿼리 앞에 "s.jina.ai"를 붙여 LLM 친화적인 형식으로 변환합니다.
- 높은 동시성 및 안정성높은 접근성과 안정성을 제공하여 많은 수의 동시 요청을 지원합니다.
도움말 사용
설치 및 사용
Jina AI Reader는 설치가 필요하지 않으며, 사용자는 URL에 접두사 'r.jina.ai'를 추가하기만 하면 됩니다. 예를 들어 URL "https://en.wikipedia.org/wiki/Artificial_intelligence"을 LLM 친화적인 입력 형식으로 변환하려면 다음 URL을 사용하면 됩니다:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
마찬가지로 웹 검색을 수행하여 LLM 친화적인 결과를 얻으려면 쿼리 앞에 "s.jina.ai"와 같은 접두사를 붙입니다:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
기능 작동 흐름
- 웹 콘텐츠 추출::
- 브라우저에 접두사(예: "https://r.jina.ai/https://example.com")와 함께 URL을 입력합니다.
- 엔터 키를 누르면 Jina AI Reader가 자동으로 웹 페이지 콘텐츠를 추출하여 LLM 친화적인 텍스트 형식으로 변환합니다.
- 추출된 콘텐츠는 브라우저에 표시되며 사용자는 이를 직접 복사하거나 추가 가공할 수 있습니다.
- 이미지 인식::
- 웹 페이지의 콘텐츠를 추출할 때 Jina AI Reader는 페이지의 이미지에 대한 설명 태그를 자동으로 생성합니다.
- 이러한 태그는 이미지의 대체 속성으로 사용되어 처리 중에 LLM이 이미지 콘텐츠를 쉽게 이해할 수 있도록 합니다.
- PDF 읽기::
- "https://r.jina.ai/https://example.com/document.pdf"와 같은 접두사와 함께 PDF URL을 입력합니다.
- Jina AI Reader는 PDF 콘텐츠를 자동으로 읽고 LLM 친화적인 텍스트 형식으로 변환합니다.
- 변환된 콘텐츠는 브라우저에 표시되며 사용자가 직접 복사하거나 추가 처리를 할 수 있습니다.
- 검색 기능::
- 쿼리에 접두사 "s.jina.ai"를 추가합니다(예: "https://s.jina.ai/your+query").
- 엔터를 누르면 Jina AI Reader가 웹에서 최신 정보를 가져와 LLM 친화적인 텍스트 형식으로 변환합니다.
- 검색 결과가 브라우저에 표시되며 사용자는 이를 직접 복사하거나 추가로 처리할 수 있습니다.
고급 설정
- 이미지 설명 태그기본적으로 이미지 설명 태그 기능은 꺼져 있습니다. 사용자는 요청 헤더에 "x-with-generated-alt: true"를 설정하여 이 기능을 활성화할 수 있습니다.
- 프록시 및 쿠키프록시 및 쿠키 설정 : 사용자는 요청 헤더에서 프록시와 쿠키를 설정하여 특정 컨텍스트에서 Jina AI Reader를 사용할 수 있습니다.
스트리밍 모드
콘텐츠를 사용할 수 있게 되는 즉시 처리하려면 요청 헤더를 스트림 모드로 설정하세요. 이렇게 하면 첫 바이트를 수신하는 데 걸리는 시간을 최소화할 수 있습니다:
curl -H "Accept: text/event-stream" https://r.jina.ai/https://example.com
다른 HTML 마크다운 도구 추천
https://markdowndown.vercel.app/
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...