要爬网页,选哪个爬虫好?Nutch?Heritrix

 我来答
可以叫我表哥
2014-12-30 · 知道合伙人数码行家
可以叫我表哥
知道合伙人数码行家
采纳数:25897 获赞数:1464978
2010年毕业于北京化工大学北方学院计算机科学与技术专业毕业,学士学位,工程电子技术行业4年从业经验。

向TA提问 私信TA
展开全部
用heritrix比nutch要好一些。
nutch适合做搜索引擎,只是附加有crawl的功能。而heritrix是专门crawl的。
用Lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成Lucene doc,用IKAnalyzer分词,建立索引啥的都给Lucene了。现在就是要从外网爬我需要的信息,按照我本地数据的格式存入数据库了... 刚上手...
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式