如何设计一个python分布式爬虫系统

 我来答

1个回答

#热议# 在购买新能源车时，要注意哪些？

从空去听8
2017-11-19 · TA获得超过7440个赞

知道大有可为答主

回答量：6907

采纳率：93%

帮助的人：5589万

我也去答题访问个人页

关注

展开全部

你都没想明白为什么要分布式
========================
我还是认真答一下吧，爬虫这种东西在大批量抓去时主要有下面几个量变引发质变的挑战：
1. 出口IP数量，主要是考虑防止被封禁，带宽反而不是大问题，这个问题可以通过搭建NAT出口集群，或者单机多IP的方式实现
2. 本地端口号耗尽，由于爬虫是服务端编程不太常见的主动发起连接的应用，在普通只有一个IP绑定的机器上会受到65535的限制（一般在50000多就会受到限制）
3. 大容量存储的需求，一般都是通过开源或者自己研发的分布式存储系统来实现，像谷歌（GFS）和百度（百灵）都是自研，这里就不展开说了
4. 动态网页的支持，像京东这种网站，内容都是通过类似Facebook的bigpipe一样动态加载的，直接像curl这样抓取看到的页面几乎是空白的，这就要求爬虫能模拟JS的运行，这方面有很多基于v8引擎的开源项目：
CasperJS, a navigation scripting and testing utility for PhantomJS and SlimerJS
PhantomJS | PhantomJS
由于这个需求，爬虫成了CPU密集型的应用了，分布式的需求也就有了
单机爬虫的主要难点在的异步非阻塞网络编程，老生常谈了。先暂时写这么多吧

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何设计一个python分布式爬虫系统

其他类似问题

为你推荐：