基于python的scrapy爬虫,关于增量爬取是怎么处理的

 我来答
nonstop525
2017-08-25 · TA获得超过567个赞
知道小有建树答主
回答量:341
采纳率:66%
帮助的人:204万
展开全部
对于增量这个问题和爬虫框架没有关系,首先得知道那些是爬取过的,那些是没有爬过的,所以得有一个数据库(不管是内存数据库redis,memcache,Mongo,还是传统数据库mysql,sqlite)保存已经爬取过的网页。具体实现可以通过url或者内容的md5值等判别那些爬过那些没有过;
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式