MediaCrawler: conteúdo de plataformas de mídia social múltipla, ferramenta de rastreamento de comentários em vídeo

Trae

Introdução geral

O MediaCrawler é uma ferramenta de rastreamento de conteúdo de mídia social criada para desenvolvedores. Ao fornecer uma função de rastreamento avançada, ela pode obter rapidamente vídeos, imagens, comentários, curtidas, retweets e outros dados de plataformas sociais como Xiaohongshu, Jieyin, Shutterbug, B-station, Weibo e assim por diante. Essa ferramenta usa o Playwright como uma ponte, preservando o ambiente do navegador após o login e obtendo parâmetros criptografados por meio da execução de expressões JS, simplificando assim a dificuldade da engenharia reversa complexa.

Apenas para uso profissional, observe que a coleta de dados precisa ser realizada dentro do escopo da autorização.

MediaCrawler:多社交媒体平台内容、视频评论爬虫工具

 

 

Lista de funções

Suporte a plataformas como Xiaohongshu, Jieyin, Shutterbugs, B-station, Weibo, etc.
Fornecer login por cookie, login por código QR, login por número de celular e outros métodos
Suporte à pesquisa de palavras-chave e à função de rastreamento de ID de vídeo/post especificado
Suporte a cache de estado de login e pool de proxy IP
Fornecer soluções de CAPTCHA com controle deslizante (algumas plataformas)

 

terraçoPesquisa de palavras-chaveEspecifique o ID do post a ser rastreadoComentários secundáriosPágina inicial do Criador DesignadoCache de estado de loginPool de proxy IPGerar nuvens de palavras de comentários
Little Red Book (site de rede social)
jitterbug
violino
Estação B
microblog
quadro de mensagens eletrônicas

 

 

Usando a Ajuda

Criar e ativar um ambiente virtual Python
Instale as dependências: use o comando `pip install -r requirements.txt`.
Para instalar o driver do navegador Playwright: use o comando `playwright install`.
Para executar o rastreador: use um argumento de linha de comando, como `python main.py --platform xhs --lt qrcode --type search`.
Use `python main.py --help` para ver exemplos de rastreadores para outras plataformas.
Verifique a estrutura do código do projeto e responda a mais perguntas no repositório do GitHub.

 

 

Materiais didáticos

https://relakkes.feishu.cn/wiki/JUgBwdhIeiSbAwkFCLkciHdAnhh

© declaração de direitos autorais
AiPPT

Artigos relacionados

Sem comentários

nenhum
Nenhum comentário...