关于nutch的爬取结果，问个菜鸟问题。。

刚刚在本地配置好了Nutch1.4，爬取了一些数据，但这些数据都是以一些数据块（不知具体该怎么叫）存在crawl文件夹里的。那我该怎么去读取这些数据，假定这些数据都是一个... 刚刚在本地配置好了Nutch1.4，爬取了一些数据，但这些数据都是以一些数据块（不知具体该怎么叫）存在crawl文件夹里的。那我该怎么去读取这些数据，假定这些数据都是一个个网页，那我需要读取各个网页的源码，该怎么办? 展开

 我来答

1个回答

#热议# 什么是淋病？哪些行为会感染淋病？

Maxwell_11
2012-03-24

知道答主

回答量：13

采纳率：0%

帮助的人：10万

我也去答题访问个人页

关注

展开全部

bin/nutch readseg –dump crawl/纯携清segments/20070516154114 segdb
这样会产生一个 dump 文件,这是一次抓取循环的结果,如果要查看其他
文件夹下抓取的结果,只要更改最后那个以时间命名隐启的文件夹就做前可以了。

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

关于nutch的爬取结果，问个菜鸟问题。。

其他类似问题

为你推荐：