
基于python的scrapy爬虫,关于增量爬取是怎么处理的
2个回答
展开全部
增量是网站每天的新增内容吧,我觉得这种是你需要写的,不是基于什么框架就能有直接的答案的,每个网站的增量可能都不一样,就想腾讯视频可能就是有一个大的总的上传的地方,然后有分类,那种,每天增量很多,可能你需要数据库记录一下之前爬过的链接,只爬新增遇到旧的就算了,而想网易新闻他们类似那样的可能是增量都是日期文件夹,输入只要在url上面动手改下就应该可以吧。。。以上是个人意见
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。
有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。
另外一种做法是存到搜索引擎里。
还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。
nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。
另外一种做法是存到搜索引擎里。
还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。
nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
本回答被提问者和网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询