基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

day忘不掉的痛
2014-12-07 · 知道合伙人数码行家

day忘不掉的痛
知道合伙人数码行家

采纳数：62646 获赞数：223939

本人担任公司网络部总经理多年，有充足的网络经验、互联网相关知识和资讯。

向TA提问私信TA

关注

展开全部

您好，很高兴能帮助您
　对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能，直接在item中增加Url字段。
　　item['Url'] = response.url

　　然后在数据端把储存url的column设置成unique。
　　之后在python代码中捕获数据库commit时返回的异常，忽略掉或者转入log中都可以。
　　网上有说支持增量的，我看了代码+实际测试，还是觉得不是增量的...

　　我的做法是pipeline的open_spider时读取所有item里面的url，做成一个parsed_urls的list，在rule的process_link中过滤掉这些已经下载的url，如果需要的话可以再item里面加入last_notify属性进一步扩展...
你的采纳是我前进的动力，
记得好评和采纳，答题不易，互相帮助，

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

pytnon-简体中文新版环境搭建下载-激活永久使用

正版软件，不捆绑安装一次收费，长期使用，绿色通道，无广告，十年安装经验致力用户高效开发，支持远程协助安装，支持重置，使用便捷放心。

基于python的scrapy爬虫，关于增量爬取是怎么处理的

您可能关注的内容

其他类似问题

为你推荐：