【java相关】关于nutch搜索引擎的使用问题(服务器、apache、nutch)。谢谢!

使用的nutch1.2+tomcat6。用nutch爬163、sina没问题,爬完了到他那个war程序里面搜索都能搜到爬出来的数据。但是,因为需求,自己的一个项目需要动态... 使用的nutch1.2+tomcat6。
用nutch爬163、sina没问题,爬完了到他那个war程序里面搜索都能搜到爬出来的数据。

但是,因为需求,自己的一个项目需要动态的生成一些html(java中通过流输出,<html><head><title><body>以防万一都输出了),而且html也是有很多。然后把这些html的链接集中方法到一个index.html中,然后让爬虫去爬index.html。而且这些生成的html用浏览器打开也可以正常查看。
日志也是从那里滚啊滚,看着挺正常。
但是搜索的时候就么得搜索不到了,只显示“第0-0项 (共有 0 项查询结果):”。
后台当然就是:
2014-07-11 16:37:57,978 INFO NutchBean - query request from 0:0:0:0:0:0:0:1
2014-07-11 16:37:58,047 INFO NutchBean - query: 汽车
2014-07-11 16:37:58,047 INFO NutchBean - lang:
2014-07-11 16:37:58,118 INFO NutchBean - searching for 20 raw hits
2014-07-11 16:37:58,188 INFO NutchBean - total hits: 0

又试了试其它网络上的页面都可以。于是问题应该就是出在自己的这些网页中。
难道nutch不能爬本地网页?
难道nutch抓数据还按照什么标准,而本地网页缺少一些标签?
求老师、前辈指教,谢谢!
展开
 我来答
alexmao4
2014-07-11 · TA获得超过1741个赞
知道大有可为答主
回答量:2350
采纳率:50%
帮助的人:448万
展开全部
建议把log4j的级别设置为debug,看更详细的爬行过程。
我怀疑你把网页放到本地,自己制作的index.html去爬行数据时,href="....",链接位置是相对地址,而非绝对地址,而且你的url地址在本地爬行,应该是file://...协议。这些原因导致最终爬行页面地址凭借错误。
追问
恩恩,谢谢您。root.html上面有很多链接,每个的href我查了一下都是http开头xxx.html结尾的路径。
还是没想什么原因来,root.html以及其上的所有在tomcat上浏览器访问都可以,爬行也不报错。
就是搜索搜索不到呢(nutch-site.xml的search.dir已修改)。
谢谢!
威孚半导体技术
2024-08-19 广告
威孚(苏州)半导体技术有限公司是一家专注生产、研发、销售晶圆传输设备整机模块(EFEM/SORTER)及核心零部件的高科技半导体公司。公司核心团队均拥有多年半导体行业从业经验,其中技术团队成员博士、硕士学历占比80%以上,依托丰富的软件底层... 点击进入详情页
本回答由威孚半导体技术提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式