基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

1个回答

nonstop525
2017-08-25 · TA获得超过567个赞

知道小有建树答主

回答量：341

采纳率：66%

帮助的人：204万

关注

展开全部

对于增量这个问题和爬虫框架没有关系，首先得知道那些是爬取过的，那些是没有爬过的，所以得有一个数据库（不管是内存数据库redis，memcache，Mongo，还是传统数据库mysql，sqlite）保存已经爬取过的网页。具体实现可以通过url或者内容的md5值等判别那些爬过那些没有过；

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

其他类似问题