llms.txt 생성기: 웹사이트 콘텐츠를 빠르게 캡처하고 LLM 교육 텍스트 데이터 세트를 생성합니다.
일반 소개
llmstxt-generator는 대규모 언어 모델(LLM) 학습 및 추론을 위한 고품질 텍스트 데이터 세트 준비에 특화된 전문 웹 콘텐츠 추출 및 통합 도구입니다. Mendable AI에서 개발한 이 도구는 텍스트 처리를 위해 @firecrawl_dev에서 제공하는 웹 크롤링 기술과 GPT-4-mini를 사용합니다. 지정된 웹사이트의 콘텐츠를 자동으로 크롤링하고 모든 콘텐츠를 표준화된 텍스트 파일로 통합합니다. 이 도구는 편리한 웹 인터페이스와 API 인터페이스를 제공하여 사용자가 쉽게 학습 데이터 세트를 생성할 수 있으며, 특히 웹사이트에서 텍스트 데이터를 대량으로 확보해야 하는 AI 연구자 및 개발자에게 적합합니다.

기능 목록
- 대상 웹사이트 콘텐츠의 모든 관련 페이지를 자동으로 크롤링합니다.
- 두 가지 텍스트 출력 형식을 제공합니다: 표준(llms.txt)과 전체(llms-full.txt).
- 웹 인터페이스를 통한 직관적인 조작 지원
- 프로그래매틱 호출을 가능하게 하는 RESTful API 인터페이스 제공
- GitHub 리포지토리 콘텐츠의 특수 처리 지원
- 웹 콘텐츠의 지능적인 추출 및 처리 가능
- 크롤링 제한을 늘리기 위한 사용자 지정 Firecrawl API 키 지원
- 데이터 캡처 효율성을 개선하기 위한 웹 캐싱 메커니즘 포함
- 여러 콘텐츠 형식 변환 지원(예: 마크다운)
도움말 사용
1. 웹 인터페이스 사용
- 공식 웹사이트 방문: https://llmstxt.firecrawl.dev
- 입력란에 대상 웹사이트의 URL을 입력합니다.
- 텍스트 생성을 시작하려면 '생성' 버튼을 클릭합니다.
- 처리가 완료될 때까지 기다렸다가 생성된 텍스트 파일을 가져옵니다.
2. API 사용법
기본 API 호출:
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- 표준 버전의 텍스트 받기: 위의 URL로 바로 이동합니다.
- 텍스트의 전체 버전을 얻으려면 URL 끝에 "/full"을 추가합니다.
사용자 지정 API 키를 사용합니다:
더 높은 크롤링 제한이 필요한 경우 다음과 같이 직접 설정할 수 있습니다. 파이어크롤 API 키::
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3. 로컬 배포를 위한 가이드라인
로컬 환경에서 실행해야 하는 경우 아래 단계를 따르세요:
- 환경 구성:
설정.env
파일을 열고 다음과 같은 필수 매개변수를 구성합니다:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
- 설치 및 운영:
npm install
npm run dev
4. 사용 시 주의사항
- 처리 시간: 사이트 크롤링 및 LLM 처리 작업을 수행해야 하므로 몇 분 정도 소요될 수 있습니다.
- 무료 버전 제한: 사용자 지정 API 키 없이 사이트당 최대 10페이지 제공
- 고급 버전: 사용자 지정 파이어크롤링 API 키로 최대 100페이지 제한
- 캐싱 메커니즘: 시스템이 결과를 캐시하고 3일 이내에 동일한 URL에 대한 반복 요청은 캐시로 바로 반환됩니다.
- GitHub 리포지토리 지원: 리포지토리 관련 콘텐츠를 추출하기 위해 GitHub 리포지토리 URL을 특수 처리합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...