要爬网页,选哪个爬虫好?Nutch?Heritrix
2014-12-30 · 知道合伙人数码行家
可以叫我表哥
知道合伙人数码行家
向TA提问 私信TA
知道合伙人数码行家
采纳数:25897
获赞数:1464978
2010年毕业于北京化工大学北方学院计算机科学与技术专业毕业,学士学位,工程电子技术行业4年从业经验。
向TA提问 私信TA
关注
展开全部
用heritrix比nutch要好一些。
nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。
用Lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成Lucene doc,用IKAnalyzer分词,建立索引啥的都给Lucene了。现在就是要从外网爬我需要的信息,按照我本地数据的格式存入数据库了... 刚上手...
nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。
用Lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成Lucene doc,用IKAnalyzer分词,建立索引啥的都给Lucene了。现在就是要从外网爬我需要的信息,按照我本地数据的格式存入数据库了... 刚上手...
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询