
java相关/爬虫/nutch。需求是使用爬虫去爬去新浪微博。谢谢! 200
【背景】爬虫这一块从没接触过,底层http么得不擅长,所以自己写爬虫不大行。【需求】需求就是,新浪微博比如有一个用户,把这个用户的目录给爬虫程序入口,指定好深度,开始爬,...
【背景】爬虫这一块从没接触过,底层http么得不擅长,所以自己写爬虫不大行。
【需求】需求就是,新浪微博比如有一个用户,把这个用户的目录给爬虫程序入口,指定好深度,开始爬,然后依次爬行这个人的好友们,再继续,再爬这个人的好友们的好友。
————————————————————————————————————
【尝试】功能似乎就是个爬虫,nutch试过了,但是第一爬出来的东西一般用户建立索引搜索较方便但是结果集属于那种非直接阅读的不方便手动分析结果,也试过apache的HttpClient也是过jdk的,也是过Jsoup(当然是别人写好的)。
但是效果都不好(原因我太笨):
第一是微博的内容一般都是动态加载,页面上爬出来的只是个框架;
第二,需要登录导致爬行中断,即使用cookie也提示异常;
第三,经常爬着爬着就Read timed out或者爬出来的数据就显示新浪的一个页面说“抱歉,XXX服务器错误”貌似ip被封了还是怎么。
————————————————————————————————————
【求助】我也知道可能发这个问题回答的人们不会太多,也找了一些资料和代码,效果不是特别好,也可能是自己基本功太弱不会调。领导布置下来一个需求,之前也不做这块,有点蒙。还请各位老师前辈不惜赐教。能给个源码直接用最好!
至少能够实现正常爬取新浪任意一个用户的页面,信息图片么得都能下来,不会提示登录不会只爬个框架么得。至少那个页面能下来就行。好吧,虽然我知道这个就是最麻烦的那块。最好java代码。
————————————————————————————————————
悬赏分不是问题,有帮助的会采纳后追加悬赏。先谢谢各位,还望赐教。 展开
【需求】需求就是,新浪微博比如有一个用户,把这个用户的目录给爬虫程序入口,指定好深度,开始爬,然后依次爬行这个人的好友们,再继续,再爬这个人的好友们的好友。
————————————————————————————————————
【尝试】功能似乎就是个爬虫,nutch试过了,但是第一爬出来的东西一般用户建立索引搜索较方便但是结果集属于那种非直接阅读的不方便手动分析结果,也试过apache的HttpClient也是过jdk的,也是过Jsoup(当然是别人写好的)。
但是效果都不好(原因我太笨):
第一是微博的内容一般都是动态加载,页面上爬出来的只是个框架;
第二,需要登录导致爬行中断,即使用cookie也提示异常;
第三,经常爬着爬着就Read timed out或者爬出来的数据就显示新浪的一个页面说“抱歉,XXX服务器错误”貌似ip被封了还是怎么。
————————————————————————————————————
【求助】我也知道可能发这个问题回答的人们不会太多,也找了一些资料和代码,效果不是特别好,也可能是自己基本功太弱不会调。领导布置下来一个需求,之前也不做这块,有点蒙。还请各位老师前辈不惜赐教。能给个源码直接用最好!
至少能够实现正常爬取新浪任意一个用户的页面,信息图片么得都能下来,不会提示登录不会只爬个框架么得。至少那个页面能下来就行。好吧,虽然我知道这个就是最麻烦的那块。最好java代码。
————————————————————————————————————
悬赏分不是问题,有帮助的会采纳后追加悬赏。先谢谢各位,还望赐教。 展开
1个回答
2014-08-07
展开全部
新浪微博比如有一个用户,把这个用户的目录给爬虫程序入口,指定好深度,开始爬,然后依次爬行这个人的好友
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询