java相关,apache的nutch项目的问题,提供个思路就可以。谢谢!
可以使用nutch爬去一般网页并正常搜索。但是现在有这么一个需求,想使用nutch从一两个新浪微博的用户开始爬,指定好爬取深度,从而爬去到有限个若干个用户的网页。于是,通...
可以使用nutch爬去一般网页并正常搜索。
但是现在有这么一个需求,想使用nutch从一两个新浪微博的用户开始爬,指定好爬取深度,从而爬去到有限个若干个用户的网页。于是,通过编程在进行处理和分析,提取出有用的数据封装为用户对象存入DB。
——————————————————————————————————————
那么问题是:
1、nutch貌似只能爬一般网页,这种需要登录的,怎么整?
2、nutch爬去网页,爬完的结果是放在本地了。还是只在本地放一个索引,然后用户搜索的时候单击某一个网页再去他们的服务器取?
3、nutch的及结果集的结构该如何下手分析,比如如何从结果集中定位一个网页然后进行下一步处理,比如取出用户信息。谢谢! 展开
但是现在有这么一个需求,想使用nutch从一两个新浪微博的用户开始爬,指定好爬取深度,从而爬去到有限个若干个用户的网页。于是,通过编程在进行处理和分析,提取出有用的数据封装为用户对象存入DB。
——————————————————————————————————————
那么问题是:
1、nutch貌似只能爬一般网页,这种需要登录的,怎么整?
2、nutch爬去网页,爬完的结果是放在本地了。还是只在本地放一个索引,然后用户搜索的时候单击某一个网页再去他们的服务器取?
3、nutch的及结果集的结构该如何下手分析,比如如何从结果集中定位一个网页然后进行下一步处理,比如取出用户信息。谢谢! 展开
2个回答
2014-08-16
展开全部
“提取出有用的数据封装为用户对象存入DB”,那用nutch比较费劲,除非你对它的原码非常熟悉,知道从哪里可以截取或者怎么解析。
登录的,建议你用jsoup带着cookie进去。cookie可以在浏览器登录后,随便刷新一个站内网页,同时打开F12查看cookie即可。
动态的,建议你用htmlunit。
登录的,建议你用jsoup带着cookie进去。cookie可以在浏览器登录后,随便刷新一个站内网页,同时打开F12查看cookie即可。
动态的,建议你用htmlunit。
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询