apache-nutch-1.5.1有没有高手可以教一下在windows xp系统下怎么安装?使用爬虫 20

我的是windowsxp系统,apache-tomcat-6.0.30,MyEclipse10.0,cygwinnutch则是从网上下载的apache-nutch-1.5... 我的是windows xp系统,apache-tomcat-6.0.30,MyEclipse 10.0, cygwin
nutch则是从网上下载的
apache-nutch-1.5.1-bin.tar.gz
apache-nutch-1.5.1-bin.zip
apache-nutch-1.5.1-src.tar.gz
apache-nutch-1.5.1-src.zip
四个压缩包。
琢磨了好几天了,网上也找不到教学
找到的都是0.7,0.9最新的也不过是1.2的,
但是nutch从1.3,1.4以后改版很大很大,参考价值很小。
至于1.5则是有一个linux系统下安装的介绍。但是尝试了下,并不适用。
希望高手给个指导,最好具体点。成功的话绝对追加财富悬赏的。
执行bin/nutch 没有问题。
conf/nutch-default.xml中

< name>http.agent.name< /name> 后改为
< value>ABC< /value>

< name>plugin.folder< /name> 后改为
< value>.src/plugin< /value>

conf/crawl-urlfilter.txt中

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME改为
+^http://([a-z0-9]*\.)*sohu.com/

建urls文件夹,内部建urls.txt内容http://www.sohu.com/

然后不管事在myeclipe中对Crawler属性进行修改还是
用Cygwin直接输入
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log

命令,日志文件会出现,
但是爬虫爬的东西应该存储的crawled文件夹没有。。。也就是说爬出来的东西没有。或者根本没有爬网站
我实在是不知道怎么办了?
展开
 我来答
小闷暴走
2012-07-18 · TA获得超过936个赞
知道小有建树答主
回答量:431
采纳率:0%
帮助的人:410万
展开全部

到用户主目录:

cd ~

建立文件夹:

mkdir nutch

将文件拷贝到~/hadoop/nutch目录,解压缩:

tar -zxvf apache-nutch-1.5-bin.tar.gz

如果没用权限,可以使用chmod和chown授权

验证一下,执行

bin/nutch 

更多追问追答
追问
到这里都没有问题,说是这样就可以证明是否可用。后面不会弄了
追答
这没问题就可用了啊......
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式