基于python的scrapy爬虫,关于增量爬取是怎么处理的
展开全部
我也遇到了这个问题,我的解决方法是,先将列表按照时间排序后再抓取,每次抓取完记录最后一条的url,下载再抓取时,遇到这个url,抓取就自动退出。
如果解决了您的问题请采纳!
如果未解决请继续追问!
如果解决了您的问题请采纳!
如果未解决请继续追问!
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。
有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。
另外一种做法是存到搜索引擎里。
还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。
nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。
另外一种做法是存到搜索引擎里。
还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。
nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询