nutch2.1二次开发,怎么重复抓取网页

 我来答
llzzcc66
2017-03-25 · 知道合伙人数码行家
llzzcc66
知道合伙人数码行家
采纳数:81385 获赞数:171481
公司运维员工

向TA提问 私信TA
展开全部
1.首先nutch的配置已经在博客里面写好了,如果还不知道,建议现看下,然后再读这篇文章。
2.用一个SequenceFile.Reader来读取排序的输入。SequenceFile.Reader m_reader = m_reader = new SequenceFile.Reader(fs, content, conf);
3.用NutchConfiguration.create()实例化一个Configuration的对象conf。
Configuration conf = NutchConfiguration.create();
//实例化一个path的路径,"path"是我们通过读取配置文件(conf.properties)获取的路径
Path content = new Path(path + "/data");
//通过这个路径就可有得到文件所在的位置。
FileSystem fs = content.getFileSystem(conf);
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式