如何利用nutch和hadoop爬取网页数据
1个回答
展开全部
最终选择的是apache
nutch,到目前为止最新的版本是1.3
1.
Nutch是什么?
Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch
1.3开始,其集成了这个索引架构
2.
在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch
1.3二进制包和源代码
http://mirror.bjtu.edu.cn/apache//nutch/
3.
如何配置Nutch?
3.1
对下载后的压缩包进行解压,然后cd
$HOME/nutch-1.3/runtime/local
3.2
配置bin/nutch这个文件的权限,使用chmod
+x
bin/nutch
3.3
配置JAVA_HOME,使用export
JAVA_HOME=$PATH
4.
抓取前要做什么准备工作?
4.1
配置http.agent.name这个属性,在conf目录下
<prename="code"class="html"><property>
<name>http.agent.name</name>
<value>My
Nutch
Spider</value>
nutch,到目前为止最新的版本是1.3
1.
Nutch是什么?
Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch
1.3开始,其集成了这个索引架构
2.
在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch
1.3二进制包和源代码
http://mirror.bjtu.edu.cn/apache//nutch/
3.
如何配置Nutch?
3.1
对下载后的压缩包进行解压,然后cd
$HOME/nutch-1.3/runtime/local
3.2
配置bin/nutch这个文件的权限,使用chmod
+x
bin/nutch
3.3
配置JAVA_HOME,使用export
JAVA_HOME=$PATH
4.
抓取前要做什么准备工作?
4.1
配置http.agent.name这个属性,在conf目录下
<prename="code"class="html"><property>
<name>http.agent.name</name>
<value>My
Nutch
Spider</value>
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询