基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

2个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

合兴锐乙
2020-02-04 · TA获得超过3.8万个赞

知道大有可为答主

回答量：1.4万

采纳率：32%

帮助的人：997万

我也去答题访问个人页

关注

展开全部

我也遇到了这个问题，我的解决方法是，先将列表按照时间排序后再抓取，每次抓取完记录最后一条的url，下载再抓取时，遇到这个url，抓取就自动退出。
如果解决了您的问题请采纳！
如果未解决请继续追问！

已赞过 已踩过<

评论收起

神速小羊
2016-02-20 · TA获得超过1.1万个赞

知道大有可为答主

回答量：1.1万

采纳率：2%

帮助的人：4461万

我也去答题访问个人页

关注

展开全部

比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。

有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多，太多了内存与效率都低。

另外一种做法是存到搜索引擎里。

还有一种办法是你自己做一个btree，专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。

nutch是用hadoop的sequence file来存贮的。效率低，但是可行。

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

py爬虫全能工程师2024 版 - 从入门到精通，实战特训

py爬虫海量学习资源，200 多节精心录制的视频课程，100 余个真实企业案例剖析py爬虫从入门到精通，全方位覆盖 Python 各个知识点与应用场景。

class.imooc.com广告

python爬虫教程7年匠心打磨，从入门到实战!

class.imooc.com

基于python的scrapy爬虫，关于增量爬取是怎么处理的

您可能关注的内容

其他类似问题

为你推荐：