
基于python的scrapy爬虫,关于增量爬取是怎么处理的
1个回答
展开全部
因为无法增量抓取所以放弃 scrapy 的。
因为我们的场景,定时更新,增量抓取是非常重要的,这要求很强 url 去重,调度策略逻辑。
而 scrapy 的内存去重实在是太简陋了。
于是,pyspider 就这么诞生了
因为我们的场景,定时更新,增量抓取是非常重要的,这要求很强 url 去重,调度策略逻辑。
而 scrapy 的内存去重实在是太简陋了。
于是,pyspider 就这么诞生了
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询