nutch抓取网页中的指定内容存到mysql的方法?

nutch抓取网页中的指定内容存到mysql,如:抓取所以网页中的qq号,邮箱等。是不是要重新修改nutch分析网页的源码,如果是的,需要用nutch中哪些api呢?自己... nutch抓取网页中的指定内容存到mysql,如:抓取所以网页中的qq号,邮箱等。是不是要重新修改nutch分析网页的源码,如果是的,需要用nutch中哪些api呢?自己写好的分析代码怎么加入nutch呢 展开
 我来答
erliang20088
推荐于2016-09-28 · TA获得超过2496个赞
知道小有建树答主
回答量:926
采纳率:100%
帮助的人:954万
展开全部
1、nutch仅是爬虫,含卖岩即只负责数据抓取模块,至于qq号、邮箱等属于数据的解析模块是谈御相对独立的,至于存储进mysql是另外的存储模块。

2、良好的程序设计,一定是至少将这3个模块分开,其实还要划分出更多的模块。我上个月刚用配灶nutch做了一个网络爬虫,效果还不错。
3、像你的这种情况,要分 步走:
一,把nutch的源码看个大概,至少要把整个的数据流搞清。
二,将数据流截断,让其流向自己所要处理的模块。
试试看吧。
追问
非常耐心详细的回答啊,非常感谢!小弟最近先看下源码
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
tn瓶邪
推荐于2016-09-30 · TA获得超过1881个赞
知道小有建树答主
回答量:610
采纳率:98%
帮助的人:112万
展开全部
详细步骤
1.准备好eclipse
2.安装maven
3.安装svn:参考官方说简亮羡明
4.安装Nutch:步骤
5.(可选)拦拍安装Cygwin:下载地址 使用说明

未完,停止更新键孝。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式