如何安装nutch1.1到MyEclipse6.5
网上的我都看了,比如http://blog.sina.com.cn/s/blog_4c98b960010092h这句(下载其中的jid3lib-0.5.1.jar和rtf...
网上的我都看了,比如http://blog.sina.com.cn/s/blog_4c98b960010092h
这句(下载其中的jid3lib-0.5.1.jar和rtf-parser.jar两个文件,并分别把他们拷贝到Nutch\src\plugin\parse-mp3\lib和Nutch\src\plugin\parse-rtf\lib两个文件夹下)
我的Nutch\src\plugin\下根本没有parser-MP3和parser-rtf 。然后我把工程导入到MyEclipse时类还有几个错误。到底应该怎么安装越详细越好 ,无论你用什么方式表述都行。
此外,几个小问题,(可以不回答)
1.nutch到底多大啊,我解压后怎么160M,有这么大吗?
2.我上官网下载的时候1.1的版本还有许多压缩包,那些是干什么的,比如apache-nutch-1.1-bin.zip
3.关于爬虫的最上层的网址怎么设置,有格式要求吗,比如www.xxxx.com.cn 正则表达式不太懂
竟然没人回答~~~在线等~~~~~~
现在我改下的是0.9了~~~ 展开
这句(下载其中的jid3lib-0.5.1.jar和rtf-parser.jar两个文件,并分别把他们拷贝到Nutch\src\plugin\parse-mp3\lib和Nutch\src\plugin\parse-rtf\lib两个文件夹下)
我的Nutch\src\plugin\下根本没有parser-MP3和parser-rtf 。然后我把工程导入到MyEclipse时类还有几个错误。到底应该怎么安装越详细越好 ,无论你用什么方式表述都行。
此外,几个小问题,(可以不回答)
1.nutch到底多大啊,我解压后怎么160M,有这么大吗?
2.我上官网下载的时候1.1的版本还有许多压缩包,那些是干什么的,比如apache-nutch-1.1-bin.zip
3.关于爬虫的最上层的网址怎么设置,有格式要求吗,比如www.xxxx.com.cn 正则表达式不太懂
竟然没人回答~~~在线等~~~~~~
现在我改下的是0.9了~~~ 展开
2个回答
展开全部
首先说明一下,由于下载太大,我没有试过。下面根据一些经验与它的文档猜测的。
你要把nutch装到myeclipse做啥?
编译它,还是使用它?
如果只是用nutch的话,那么完全不需要myeclipse,仅需JDK、Tomcat、cygwin。
如果要编译nutch的话,一般它也建议直接用ant来编译的,只有你想调试它时才需要myeclipse。
从1.1开始,它同时发布已经编译好的包了,各个压缩包用处如下:
apache-nutch-1.1-bin.tar.gz:已经编译好的包,用于linux/unix
apache-nutch-1.1-bin.zip: 已经编译好的包,用于windows
apache-nutch-1.1-src.tar.gz:源代码,用于linux/unix
apache-nutch-1.1-src.zip: 源代码,用于windows
*.asc:校验文件,没啥用。
所以,如果要安装nutch,只需下载apache-nutch-1.1-bin.zip,然后解压到某个目录下。(有160M这么大,估计包含了tomcat了吧)
好像0.9与1.0都需要编译的,下载下来直接运行ant即可
然后在那个目录下建个urls文件,里面写上所需爬的最上层网址,如:http://lucene.apache.org/nutch/
然后运行 bin/nutch crawl urls -dir crawl -depth 3
这样就会将索引存放在crawl目录下了。
要想检索,那么需要将nutch*.war部署到tomcat,然后启动。
(我认为1.1-bin.zip中已经包含了tomcat,无需再次部署的,可以直接启动,可惜还没有下载,不清楚呀)
你要把nutch装到myeclipse做啥?
编译它,还是使用它?
如果只是用nutch的话,那么完全不需要myeclipse,仅需JDK、Tomcat、cygwin。
如果要编译nutch的话,一般它也建议直接用ant来编译的,只有你想调试它时才需要myeclipse。
从1.1开始,它同时发布已经编译好的包了,各个压缩包用处如下:
apache-nutch-1.1-bin.tar.gz:已经编译好的包,用于linux/unix
apache-nutch-1.1-bin.zip: 已经编译好的包,用于windows
apache-nutch-1.1-src.tar.gz:源代码,用于linux/unix
apache-nutch-1.1-src.zip: 源代码,用于windows
*.asc:校验文件,没啥用。
所以,如果要安装nutch,只需下载apache-nutch-1.1-bin.zip,然后解压到某个目录下。(有160M这么大,估计包含了tomcat了吧)
好像0.9与1.0都需要编译的,下载下来直接运行ant即可
然后在那个目录下建个urls文件,里面写上所需爬的最上层网址,如:http://lucene.apache.org/nutch/
然后运行 bin/nutch crawl urls -dir crawl -depth 3
这样就会将索引存放在crawl目录下了。
要想检索,那么需要将nutch*.war部署到tomcat,然后启动。
(我认为1.1-bin.zip中已经包含了tomcat,无需再次部署的,可以直接启动,可惜还没有下载,不清楚呀)
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询