java相关，apache的nutch项目的问题，提供个思路就可以。谢谢！

可以使用nutch爬去一般网页并正常搜索。但是现在有这么一个需求，想使用nutch从一两个新浪微博的用户开始爬，指定好爬取深度，从而爬去到有限个若干个用户的网页。于是，通... 可以使用nutch爬去一般网页并正常搜索。
但是现在有这么一个需求，想使用nutch从一两个新浪微博的用户开始爬，指定好爬取深度，从而爬去到有限个若干个用户的网页。于是，通过编程在进行处理和分析，提取出有用的数据封装为用户对象存入DB。
——————————————————————————————————————
那么问题是：
1、nutch貌似只能爬一般网页，这种需要登录的，怎么整？
2、nutch爬去网页，爬完的结果是放在本地了。还是只在本地放一个索引，然后用户搜索的时候单击某一个网页再去他们的服务器取？
3、nutch的及结果集的结构该如何下手分析，比如如何从结果集中定位一个网页然后进行下一步处理，比如取出用户信息。谢谢！展开

 我来答

2个回答

#热议# 为什么说不要把裤子提到肚脐眼？

匿名用户
2014-08-16

展开全部

“提取出有用的数据封装为用户对象存入DB”，那用nutch比较费劲，除非你对它的原码非常熟悉，知道从哪里可以截取或者怎么解析。

登录的，建议你用jsoup带着cookie进去。cookie可以在浏览器登录后，随便刷新一个站内网页，同时打开F12查看cookie即可。
动态的，建议你用htmlunit。

本回答由提问者推荐

已赞过 已踩过<

评论收起

百度网友3bbc7a7
2014-08-12 · TA获得超过535个赞

知道小有建树答主

回答量：354

采纳率：66%

帮助的人：111万

我也去答题访问个人页

关注

展开全部

看看这个
http://zhidao.baidu.com/link?url=ImtvCxZKgD8RFn1wd4iD__HVjg_1JxHvgxIB1TwHBJJCSv6hqv1aB2r1oFfCFOMimJLUF8R4cXJ7P3Se-6sywq

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

java相关，apache的nutch项目的问题，提供个思路就可以。谢谢！

其他类似问题

为你推荐：