用java写一个新浪微博的爬虫
以一个用户uid为种子,可以写四个不同的子爬虫,每个子爬虫的传入数据为由uid拼接出的“用户主页”,“用户粉丝页”,“用户关注者页”,“用户发表微博页”,这几个字爬虫都可以控制爬取的页数,一般新浪只让爬取粉丝页和关注者页的前20页(最近好像被缩减到5页了),用户发表微博页没有限制,主页信息只要爬取一个就够啦。
比如(下面的uid为你获得uid):
用户主页:http://weibo.com/u/uid?refer_flag=0000015010_&from=feed&loc=nickname&is_all=1
用户粉丝页:http://weibo.com/p/100505uid/follow?relate=fans&from=100505&wvr=6&mod=headfans¤t=fans#place
用户关注者页:http://weibo.com/p/100505uid/follow?page=4#Pl_Official_HisRelation__61
用户发表微博页:http://weibo.com/p/100505uid/home?from=page_100505_profile&wvr=6&mod=data&is_all=1#place
楼主也做新浪爬虫的话我们可以交流,微博有一定的反爬虫技术,不知楼主有没有解决的好方法?
2024-03-16 广告