基于python的scrapy爬虫,关于增量爬取是怎么处理的

 我来答
newtree狮子
2015-06-12 · 超过30用户采纳过TA的回答
知道答主
回答量:40
采纳率:0%
帮助的人:50.2万
展开全部
增量是网站每天的新增内容吧,我觉得这种是你需要写的,不是基于什么框架就能有直接的答案的,每个网站的增量可能都不一样,就想腾讯视频可能就是有一个大的总的上传的地方,然后有分类,那种,每天增量很多,可能你需要数据库记录一下之前爬过的链接,只爬新增遇到旧的就算了,而想网易新闻他们类似那样的可能是增量都是日期文件夹,输入只要在url上面动手改下就应该可以吧。。。以上是个人意见
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
bdwisyou7d
推荐于2016-08-31 · TA获得超过1.3万个赞
知道大有可为答主
回答量:3775
采纳率:81%
帮助的人:1083万
展开全部
比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。

有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多,太多了内存与效率都低。

另外一种做法是存到搜索引擎里。

还有一种办法是你自己做一个btree,专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。

nutch是用hadoop的sequence file来存贮的。效率低,但是可行。
本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式