nutch抓取网页中的指定内容存到mysql的方法?
nutch抓取网页中的指定内容存到mysql,如:抓取所以网页中的qq号,邮箱等。是不是要重新修改nutch分析网页的源码,如果是的,需要用nutch中哪些api呢?自己...
nutch抓取网页中的指定内容存到mysql,如:抓取所以网页中的qq号,邮箱等。是不是要重新修改nutch分析网页的源码,如果是的,需要用nutch中哪些api呢?自己写好的分析代码怎么加入nutch呢
展开
2个回答
展开全部
1、nutch仅是爬虫,即只负责数据抓取模块,至于qq号、邮箱等属于数据的解析模块是相对独立的,至于存储进mysql是另外的存储模块。
2、良好的程序设计,一定是至少将这3个模块分开,其实还要划分出更多的模块。我上个月刚用nutch做了一个网络爬虫,效果还不错。
3、像你的这种情况,要分 步走:
一,把nutch的源码看个大概,至少要把整个的数据流搞清。
二,将数据流截断,让其流向自己所要处理的模块。
试试看吧。
2、良好的程序设计,一定是至少将这3个模块分开,其实还要划分出更多的模块。我上个月刚用nutch做了一个网络爬虫,效果还不错。
3、像你的这种情况,要分 步走:
一,把nutch的源码看个大概,至少要把整个的数据流搞清。
二,将数据流截断,让其流向自己所要处理的模块。
试试看吧。
追问
非常耐心详细的回答啊,非常感谢!小弟最近先看下源码
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询