Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: LLM 사전 교육을 위한 효율적인 웹 크롤링 도구

종합 소개 Crawl4LLM은 칭화대학교와 카네기멜론대학교가 공동으로 개발한 오픈 소스 프로젝트로, 대규모 모델(LLM)의 사전 학습을 위한 웹 크롤링의 효율성을 최적화하는 데 중점을 두고 있습니다. 고품질 웹 데이터를 지능적으로 선별하여 비효율적인 크롤링을 크게 줄이며, 원래 크롤링해야 하는 1...
5개월 전
0752
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: 코드 구조와 콘텐츠로부터 마크다운 문서를 자동으로 생성합니다.

일반 소개 CodeWeaver는 코드 라이브러리를 탐색하기 쉬운 하나의 마크다운 문서로 엮도록 설계된 명령줄 도구입니다. 디렉터리를 재귀적으로 스캔하고 각 파일의 내용을 코드 블록에 포함시켜 프로젝트의 파일 계층 구조를 구조적으로 표현합니다. 이 도구는...
5개월 전
0721