【java相关】关于nutch搜索引擎的使用问题（服务器、apache、nutch）。谢谢！

使用的nutch1.2+tomcat6。用nutch爬163、sina没问题，爬完了到他那个war程序里面搜索都能搜到爬出来的数据。但是，因为需求，自己的一个项目需要动态... 使用的nutch1.2+tomcat6。
用nutch爬163、sina没问题，爬完了到他那个war程序里面搜索都能搜到爬出来的数据。

但是，因为需求，自己的一个项目需要动态的生成一些html（java中通过流输出，<html><head><title><body>以防万一都输出了），而且html也是有很多。然后把这些html的链接集中方法到一个index.html中，然后让爬虫去爬index.html。而且这些生成的html用浏览器打开也可以正常查看。
日志也是从那里滚啊滚，看着挺正常。
但是搜索的时候就么得搜索不到了，只显示“第0-0项 (共有 0 项查询结果):”。
后台当然就是：
2014-07-11 16:37:57,978 INFO NutchBean - query request from 0:0:0:0:0:0:0:1
2014-07-11 16:37:58,047 INFO NutchBean - query: 汽车
2014-07-11 16:37:58,047 INFO NutchBean - lang:
2014-07-11 16:37:58,118 INFO NutchBean - searching for 20 raw hits
2014-07-11 16:37:58,188 INFO NutchBean - total hits: 0

又试了试其它网络上的页面都可以。于是问题应该就是出在自己的这些网页中。
难道nutch不能爬本地网页？
难道nutch抓数据还按照什么标准，而本地网页缺少一些标签？
求老师、前辈指教，谢谢！展开

 我来答

1个回答

#热议# 在购买新能源车时，要注意哪些？

alexmao4

2014-07-11 · TA获得超过1741个赞

知道大有可为答主

回答量：2350

采纳率：50%

帮助的人：448万

我也去答题访问个人页

关注

展开全部

建议把log4j的级别设置为debug，看更详细的爬行过程。
我怀疑你把网页放到本地，自己制作的index.html去爬行数据时，href="....",链接位置是相对地址，而非绝对地址，而且你的url地址在本地爬行，应该是file://...协议。这些原因导致最终爬行页面地址凭借错误。

追问

恩恩，谢谢您。root.html上面有很多链接，每个的href我查了一下都是http开头xxx.html结尾的路径。
还是没想什么原因来，root.html以及其上的所有在tomcat上浏览器访问都可以，爬行也不报错。
就是搜索搜索不到呢(nutch-site.xml的search.dir已修改)。
谢谢！

本回答由提问者推荐

已赞过 已踩过<

评论收起

威孚半导体技术
2024-08-19 广告

威孚（苏州）半导体技术有限公司是一家专注生产、研发、销售晶圆传输设备整机模块（EFEM/SORTER）及核心零部件的高科技半导体公司。公司核心团队均拥有多年半导体行业从业经验，其中技术团队成员博士、硕士学历占比80%以上，依托丰富的软件底层... 点击进入详情页

本回答由威孚半导体技术提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

【java相关】关于nutch搜索引擎的使用问题（服务器、apache、nutch）。谢谢！

其他类似问题

为你推荐：