基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

育知同创教育
2017-11-11 · 百度知道合伙人官方认证企业

育知同创教育

1【专注：Python+人工智能|Java大数据|HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址：北京市昌平区三旗百汇物美大卖场2层，微信公众号：yuzhitc】

向TA提问

关注

展开全部

一、增量爬取的思路：即保存上一次状态，本次抓取时与上次比对，如果不在上次的状态中，便视为增量，保存下来。对于scrapy来说，上一次的状态是抓取的特征数据和上次爬取的 request队列（url列表），request队列可以通过request队列可以通过scrapy.core.scheduler的pending_requests成员得到，在爬虫启动时导入上次爬取的特征数据，并且用上次request队列的数据作为start url进行爬取，不在上一次状态中的数据便保存。
二、选用BloomFilter原因：对爬虫爬取数据的保存有多种形式，可以是数据库，可以是磁盘文件等，不管是数据库，还是磁盘文件，进行扫描和存储都有很大的时间和空间上的开销，为了从时间和空间上提升性能，故选用BloomFilter作为上一次爬取数据的保存。保存的特征数据可以是数据的某几项，即监控这几项数据，一旦这几项数据有变化，便视为增量持久化下来，根据增量的规则可以对保存的状态数据进行约束。比如：可以选网页更新的时间，索引次数或是网页的实际内容，cookie的更新等

本回答由提问者推荐

已赞过 已踩过<

评论收起

扬州辰之鑫教育咨询

广告2024-12-14

解析所有视频链接，保存1080p，省时省力更便捷!一键下载，操作简单，无需复杂步骤即可下载原画质视频!

tool.xzpxkj.net

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

2023python的爬虫每天免费网上学习python的爬虫

免费网上学习python的爬虫，国内讲师机构专业授课，适合从基础学习，挑战从入门到熟练运用，海量python的爬虫学习从入门到编程技术高超 python编程能力快速提升

www.huke88.com广告

py爬虫全能工程师2024 版 - 从入门到精通，实战特训

py爬虫海量学习资源，200 多节精心录制的视频课程，100 余个真实企业案例剖析py爬虫从入门到精通，全方位覆盖 Python 各个知识点与应用场景。

class.imooc.com广告

python爬虫教程7年匠心打磨，从入门到实战!

class.imooc.com

基于python的scrapy爬虫，关于增量爬取是怎么处理的

您可能关注的内容

其他类似问题

为你推荐：