关于nutch的爬取结果,问个菜鸟问题。。

刚刚在本地配置好了Nutch1.4,爬取了一些数据,但这些数据都是以一些数据块(不知具体该怎么叫)存在crawl文件夹里的。那我该怎么去读取这些数据,假定这些数据都是一个... 刚刚在本地配置好了Nutch1.4,爬取了一些数据,但这些数据都是以一些数据块(不知具体该怎么叫)存在crawl文件夹里的。那我该怎么去读取这些数据,假定这些数据都是一个个网页,那我需要读取各个网页的源码,该怎么办? 展开
 我来答
Maxwell_11
2012-03-24
知道答主
回答量:13
采纳率:0%
帮助的人:10万
展开全部
bin/nutch readseg –dump crawl/segments/20070516154114 segdb
这样会产生一个 dump 文件,这是一次抓取循环的结果,如果要查看其他
文件夹下抓取的结果,只要更改最后那个以时间命名的文件夹就可以了。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式