nutch2.1二次开发,怎么重复抓取网页

 我来答
匿名用户
2017-09-13
展开全部
1.首先nutch的配置已经在博客里面写好了,如果还不知道,建议现看下,然后再读这篇文章。2.用一个SequenceFile.Reader来读取排序的输入。SequenceFile.Readerm_reader=m_reader=newSequenceFile.Reader(fs,content,conf);3.用NutchConfiguration.create()实例化一个Configuration的对象conf。Configurationconf=NutchConfiguration.create();//实例化一个path的路径,"path"是我们通过读取配置文件(conf.properties)获取的路径Pathcontent=newPath(path+"/data");//通过这个路径就可有得到文件所在的位置。FileSystemfs=content.getFileSystem(conf);
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式