GitHub - JzwOnly/weibo_spider: 新浪微博爬虫

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
Weibo_spider		Weibo_spider
README.md		README.md
requirements.txt		requirements.txt

Repository files navigation

项目用的Python3

通过一批种子用户，抓取用户信息，所有微博，粉丝和关注关于粉丝抓取，由于微博的限制，也不知道说明原因，无法抓取全部粉丝。在我编写代码时是这么个情况

通过m.weibo.cn 可以抓取用户前250页的粉丝
通过weibo.com 这个更少只有5页
通过weibo.cn 这个上限是20页，不会再多了

用户信息

微博信息

所需库

selenium
requests
bs4
scrapy
pymongo
redis

使用:

在cookies.py 文件里添加新浪微博账号
第一层的种子用户可以在common.py 文件中修改
该爬虫是按层爬取用户的，所以在跑完第一层所有的种子用户之后需要手动去commit.py 文件中修改 "CURRENT_DEPTH_NUM" (当前层数)

About

新浪微博爬虫

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%