Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM : un outil efficace d'exploration du Web pour le pré-entraînement LLM

Introduction détaillée Crawl4LLM est un projet open source développé conjointement par l'université Tsinghua et l'université Carnegie Mellon, qui se concentre sur l'optimisation de l'efficacité de l'exploration du web pour le pré-entraînement des grands modèles (LLM). Il réduit considérablement l'inefficacité du crawling en sélectionnant intelligemment des données web de haute qualité, affirmant pouvoir...
il y a 5 mois
0767
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox : PDF, DOCX, conversion d'images en Markdown, modèle visuel OCR de haute précision

Introduction générale Zerox est un projet open source conçu pour convertir des documents PDF, DOCX, des images et d'autres documents au format Markdown par le biais de modèles visuels. Le projet est développé par l'équipe getomni-ai et fournit une solution OCR (Optical Character Recognition) simple et efficace....
Il y a 6 mois
01.3K