基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

1个回答

从空去听8
2017-11-17 · TA获得超过7439个赞

知道大有可为答主

回答量：6907

采纳率：93%

帮助的人：5565万

关注

展开全部

new to scrapy，仅提供几个思路，详细解决方案，自己解决后后续跟进。

如果只是一次性的抓取某个网站的全部内容，中途需要暂停并且恢复，只需要
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
参考：Jobs: pausing and resuming crawls
如果需求是过滤某些url，但是网站的主入口不被过滤掉，比如典型的论坛类网站，你只想过滤掉帖子，但是却不想过滤掉板块，你可以定制一下requestSeen

scrapy/dupefilter.py at 0.24 · scrapy/scrapy · GitHub
python - how to filter duplicate requests based on url in scrapy

如果使所有网站的动态过滤，比如是不是多了一个新回复，在url上的变化并不能体现出来，搜索引擎采用的是一系列的算法，判断某一个页面的更新时机。个人应用一般不会使用到（其实是自己也不懂，写出来提供一下思路，也许你会呢）。大部分的网页在进入下一级页面的时候都会有一个类似于最后更新时间，最后活动时间等等，可以根据这个来进行判断。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

其他类似问题