apache-nutch-1.5.1有没有高手可以教一下在windows xp系统下怎么安装?使用爬虫 20
我的是windowsxp系统,apache-tomcat-6.0.30,MyEclipse10.0,cygwinnutch则是从网上下载的apache-nutch-1.5...
我的是windows xp系统,apache-tomcat-6.0.30,MyEclipse 10.0, cygwin
nutch则是从网上下载的
apache-nutch-1.5.1-bin.tar.gz
apache-nutch-1.5.1-bin.zip
apache-nutch-1.5.1-src.tar.gz
apache-nutch-1.5.1-src.zip
四个压缩包。
琢磨了好几天了,网上也找不到教学
找到的都是0.7,0.9最新的也不过是1.2的,
但是nutch从1.3,1.4以后改版很大很大,参考价值很小。
至于1.5则是有一个linux系统下安装的介绍。但是尝试了下,并不适用。
希望高手给个指导,最好具体点。成功的话绝对追加财富悬赏的。
执行bin/nutch 没有问题。
conf/nutch-default.xml中
< name>http.agent.name< /name> 后改为
< value>ABC< /value>
< name>plugin.folder< /name> 后改为
< value>.src/plugin< /value>
conf/crawl-urlfilter.txt中
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME改为
+^http://([a-z0-9]*\.)*sohu.com/
建urls文件夹,内部建urls.txt内容http://www.sohu.com/
然后不管事在myeclipe中对Crawler属性进行修改还是
用Cygwin直接输入
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
命令,日志文件会出现,
但是爬虫爬的东西应该存储的crawled文件夹没有。。。也就是说爬出来的东西没有。或者根本没有爬网站
我实在是不知道怎么办了? 展开
nutch则是从网上下载的
apache-nutch-1.5.1-bin.tar.gz
apache-nutch-1.5.1-bin.zip
apache-nutch-1.5.1-src.tar.gz
apache-nutch-1.5.1-src.zip
四个压缩包。
琢磨了好几天了,网上也找不到教学
找到的都是0.7,0.9最新的也不过是1.2的,
但是nutch从1.3,1.4以后改版很大很大,参考价值很小。
至于1.5则是有一个linux系统下安装的介绍。但是尝试了下,并不适用。
希望高手给个指导,最好具体点。成功的话绝对追加财富悬赏的。
执行bin/nutch 没有问题。
conf/nutch-default.xml中
< name>http.agent.name< /name> 后改为
< value>ABC< /value>
< name>plugin.folder< /name> 后改为
< value>.src/plugin< /value>
conf/crawl-urlfilter.txt中
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME改为
+^http://([a-z0-9]*\.)*sohu.com/
建urls文件夹,内部建urls.txt内容http://www.sohu.com/
然后不管事在myeclipe中对Crawler属性进行修改还是
用Cygwin直接输入
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
命令,日志文件会出现,
但是爬虫爬的东西应该存储的crawled文件夹没有。。。也就是说爬出来的东西没有。或者根本没有爬网站
我实在是不知道怎么办了? 展开
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询