如何利用nutch和hadoop爬取网页数据

 我来答
寇开汲祺
2019-06-29 · TA获得超过3830个赞
知道大有可为答主
回答量:3131
采纳率:32%
帮助的人:178万
展开全部
最终选择的是apache
nutch,到目前为止最新的版本是1.3
1.
Nutch是什么?
Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch
1.3开始,其集成了这个索引架构
2.
在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch
1.3二进制包和源代码
http://mirror.bjtu.edu.cn/apache//nutch/
3.
如何配置Nutch?
3.1
对下载后的压缩包进行解压,然后cd
$HOME/nutch-1.3/runtime/local
3.2
配置bin/nutch这个文件的权限,使用chmod
+x
bin/nutch
3.3
配置JAVA_HOME,使用export
JAVA_HOME=$PATH
4.
抓取前要做什么准备工作?
4.1
配置http.agent.name这个属性,在conf目录下
<prename="code"class="html"><property>
<name>http.agent.name</name>
<value>My
Nutch
Spider</value>
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式