如何利用nutch和hadoop爬取网页数据

 我来答

2个回答

#热议# 为什么有人显老，有人显年轻？

ic...0@163.com
2017-04-08 · 超过201用户采纳过TA的回答

知道小有建树答主

回答量：355

采纳率：0%

帮助的人：188万

我也去答题访问个人页

关注

展开全部

最终选择的是apache nutch，到目前为止最新的版本是1.3
1. Nutch是什么?
Nutch是一个开源的网页抓取工具，主要用于收集网页数据，然后对其进行分析，建立索引，以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储，索引使用了Solr分布式索引框架来做，Solr是一个开源的全文索引框架，从Nutch 1.3开始，其集成了这个索引架构
2. 在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码
http://mirror.bjtu.edu.cn/apache//nutch/
3. 如何配置Nutch?
3.1 对下载后的压缩包进行解压，然后cd $HOME/nutch-1.3/runtime/local
3.2 配置bin/nutch这个文件的权限，使用chmod +x bin/nutch
3.3 配置JAVA_HOME，使用export JAVA_HOME=$PATH
4. 抓取前要做什么准备工作?
4.1 配置http.agent.name这个属性，在conf目录下
<prename="code"class="html"><property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-19 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

之前接触过一点nutch，整个运行过程就是几个分阶段的job，每个阶段的job完成会更新状态信息包括内容（hdfs和db存储皆是），题主问的问题可以在parser job中完成，这个job就是对网页进行解析抽取header、正文等信息。当然在后续的job如updater job处理应该也行。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何利用nutch和hadoop爬取网页数据

其他类似问题

为你推荐：