基于python的scrapy爬虫,关于增量爬取是怎么处理的

 我来答
就烦条0o
2016-09-20 · 知道合伙人软件行家
就烦条0o
知道合伙人软件行家
采纳数:33315 获赞数:46496
从事多年系统运维,喜欢编写各种小程序和脚本。

向TA提问 私信TA
展开全部
因为无法增量抓取所以放弃 scrapy 的。
因为我们的场景,定时更新,增量抓取是非常重要的,这要求很强 url 去重,调度策略逻辑。
而 scrapy 的内存去重实在是太简陋了。
于是,pyspider 就这么诞生了
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式