基于python的scrapy爬虫,关于增量爬取是怎么处理的

 我来答
合兴锐乙
2020-02-04 · TA获得超过3.8万个赞
知道大有可为答主
回答量:1.4万
采纳率:32%
帮助的人:997万
展开全部
我也遇到了这个问题,我的解决方法是,先将列表按照时间排序后再抓取,每次抓取完记录最后一条的url,下载再抓取时,遇到这个url,抓取就自动退出。
如果解决了您的问题请采纳!
如果未解决请继续追问!
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
神速小羊
2016-02-20 · TA获得超过1.1万个赞
知道大有可为答主
回答量:1.1万
采纳率:2%
帮助的人:4461万
展开全部
比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。

有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。

另外一种做法是存到搜索引擎里。

还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。

nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式