java相关,apache的nutch项目的问题,提供个思路就可以。谢谢!

可以使用nutch爬去一般网页并正常搜索。但是现在有这么一个需求,想使用nutch从一两个新浪微博的用户开始爬,指定好爬取深度,从而爬去到有限个若干个用户的网页。于是,通... 可以使用nutch爬去一般网页并正常搜索。
但是现在有这么一个需求,想使用nutch从一两个新浪微博的用户开始爬,指定好爬取深度,从而爬去到有限个若干个用户的网页。于是,通过编程在进行处理和分析,提取出有用的数据封装为用户对象存入DB。
——————————————————————————————————————
那么问题是:
1、nutch貌似只能爬一般网页,这种需要登录的,怎么整?
2、nutch爬去网页,爬完的结果是放在本地了。还是只在本地放一个索引,然后用户搜索的时候单击某一个网页再去他们的服务器取?
3、nutch的及结果集的结构该如何下手分析,比如如何从结果集中定位一个网页然后进行下一步处理,比如取出用户信息。谢谢!
展开
 我来答
匿名用户
2014-08-16
展开全部
“提取出有用的数据封装为用户对象存入DB”,那用nutch比较费劲,除非你对它的原码非常熟悉,知道从哪里可以截取或者怎么解析。

登录的,建议你用jsoup带着cookie进去。cookie可以在浏览器登录后,随便刷新一个站内网页,同时打开F12查看cookie即可。
动态的,建议你用htmlunit。
百度网友3bbc7a7
2014-08-12 · TA获得超过535个赞
知道小有建树答主
回答量:354
采纳率:66%
帮助的人:111万
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式