nutch2.1二次开发,怎么重复抓取网页
1个回答
2017-09-13
展开全部
1.首先nutch的配置已经在博客里面写好了,如果还不知道,建议现看下,然后再读这篇文章。2.用一个SequenceFile.Reader来读取排序的输入。SequenceFile.Readerm_reader=m_reader=newSequenceFile.Reader(fs,content,conf);3.用NutchConfiguration.create()实例化一个Configuration的对象conf。Configurationconf=NutchConfiguration.create();//实例化一个path的路径,"path"是我们通过读取配置文件(conf.properties)获取的路径Pathcontent=newPath(path+"/data");//通过这个路径就可有得到文件所在的位置。FileSystemfs=content.getFileSystem(conf);
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询