现有几个开源IM框架

 我来答

1个回答

#合辑# 面试问优缺点怎么回答最加分？

阿达贴
2016-12-17 · TA获得超过177个赞

知道小有建树答主

回答量：1513

采纳率：0%

帮助的人：235万

我也去答题访问个人页

关注

展开全部

　开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？这里按照我的经验随便扯淡一下：上面说的爬虫，基本可以分3类：1.分布式爬虫：Nutch
　　2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector
　　3. 非JAVA单机爬虫：scrapy
　　第一类：分布式爬虫
　　爬虫使用分布式，主要是解决两个问题：
　　1）海量URL管理
　　2）网速
　　现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：
　　1）Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取（精抽取）的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

现有几个开源IM框架

其他类似问题

为你推荐：