如何把nutch导入myeclipse
1个回答
推荐于2016-11-09
展开全部
<1>: 首先从 下载最新的nutch.在这里我使用的是nutch1.0.
<2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-0.9的目录.
<3>: 点击下一步,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf". ---- Add project 'conf' to build path---->Default Output floder ---->选择刚才conf.
<4>: finised.修改conf下面的
(a):nutch-defaul.xml :
<!-- plugin properties -->
<property>
<name>plugin.folders</name>
<value>/home/user/tools/nutch-1.0/src/plugin</value> <!--指向nutch0.9目录的plugin-->
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
(b):nutch-site.xml:
<property>
<name>http.agent.name</name>
<value>xp</value>
<description>xp</description>
</property>
<property>
<name></name>
<value>Nutch spiderman</value>
<description> Nutch spiderman</description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>
</description>
</property>
(c):crawl-urlfilter.txt:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
下载MP3跟rtf的jar文件,分别拷贝到src/plugin/parse-mp3/lib 和 src/plugin/parse-rtf/lib/文件夹下
<6>:刷新几下,右键选择工程文件夹,选择Build Path->Configure Build Path...在弹出的窗口上,切换到Libraries,选择Add Jars...,添加刚才下载的jar文件到工程。
<<7>:在nutch1.0的目录下新建立一个文件夹urls,然后再在urls中建立一个文本文件url. 写上链接。注意后面要有 "/".
选择Run->Run As->Java Application在弹出的Select Java Application上选择Crawl-org.apache.nutch.crawl.
接下来,选择 Run->Run Configurations…在左边的Java Application下面会有Crawl这一项,选择它,
切换到Arguments,Program Arguments的内容就是要设置的参数,填上urls -dir crawl -depth 3 -topN 50(这里视自己的具体情况而定,urls为链接)
<8>:直接运行吧:看在你的控制台上出现信息了没.
看别人的资料这么简单,但是在自己操作时还是出现了很多问题,
1:不小心在增加下载MP3跟rtf的jar文件时,本应该选择Add Jars...,,但是习惯选择了add external jars。
2:加载完那两个包后,发现有错误,不能找到那两个包,奇怪了,不是刚刚加载的吗?后来才发现原来那两个包文件坏了,不能打开。
<2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-0.9的目录.
<3>: 点击下一步,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf". ---- Add project 'conf' to build path---->Default Output floder ---->选择刚才conf.
<4>: finised.修改conf下面的
(a):nutch-defaul.xml :
<!-- plugin properties -->
<property>
<name>plugin.folders</name>
<value>/home/user/tools/nutch-1.0/src/plugin</value> <!--指向nutch0.9目录的plugin-->
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
(b):nutch-site.xml:
<property>
<name>http.agent.name</name>
<value>xp</value>
<description>xp</description>
</property>
<property>
<name></name>
<value>Nutch spiderman</value>
<description> Nutch spiderman</description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>
</description>
</property>
(c):crawl-urlfilter.txt:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
下载MP3跟rtf的jar文件,分别拷贝到src/plugin/parse-mp3/lib 和 src/plugin/parse-rtf/lib/文件夹下
<6>:刷新几下,右键选择工程文件夹,选择Build Path->Configure Build Path...在弹出的窗口上,切换到Libraries,选择Add Jars...,添加刚才下载的jar文件到工程。
<<7>:在nutch1.0的目录下新建立一个文件夹urls,然后再在urls中建立一个文本文件url. 写上链接。注意后面要有 "/".
选择Run->Run As->Java Application在弹出的Select Java Application上选择Crawl-org.apache.nutch.crawl.
接下来,选择 Run->Run Configurations…在左边的Java Application下面会有Crawl这一项,选择它,
切换到Arguments,Program Arguments的内容就是要设置的参数,填上urls -dir crawl -depth 3 -topN 50(这里视自己的具体情况而定,urls为链接)
<8>:直接运行吧:看在你的控制台上出现信息了没.
看别人的资料这么简单,但是在自己操作时还是出现了很多问题,
1:不小心在增加下载MP3跟rtf的jar文件时,本应该选择Add Jars...,,但是习惯选择了add external jars。
2:加载完那两个包后,发现有错误,不能找到那两个包,奇怪了,不是刚刚加载的吗?后来才发现原来那两个包文件坏了,不能打开。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询