基于python的scrapy爬虫，关于增量爬取是怎么处理的

 我来答

2个回答

#热议# 上班途中天气原因受伤算工伤吗？

newtree狮子
2015-06-12 · 超过30用户采纳过TA的回答

知道答主

回答量：40

采纳率：0%

帮助的人：50.2万

我也去答题访问个人页

关注

展开全部

增量是网站每天的新增内容吧，我觉得这种是你需要写的，不是基于什么框架就能有直接的答案的，每个网站的增量可能都不一样，就想腾讯视频可能就是有一个大的总的上传的地方，然后有分类，那种，每天增量很多，可能你需要数据库记录一下之前爬过的链接，只爬新增遇到旧的就算了，而想网易新闻他们类似那样的可能是增量都是日期文件夹，输入只要在url上面动手改下就应该可以吧。。。以上是个人意见

已赞过 已踩过<

评论收起

济南仕亚信息科技有限公司

广告2025-03-29

编程软件是一款广受欢迎的编程语言，以其简洁易读的语法和强大的功能著称，适合编程小白。一次下载长期使用，全系列版本都有，专业软件服务商，提供远程售后服务。

python.lcxkjk.cn

bdwisyou7d
推荐于2016-08-31 · TA获得超过1.3万个赞

知道大有可为答主

回答量：3775

采纳率：81%

帮助的人：1083万

我也去答题访问个人页

关注

展开全部

比较困难。通常是将已爬行好的内容存在某个位置。然后再去检查是否被爬行。

有一种简单的办法是将所有URL放在一个REDIS服务器上。 不过redis中项目数量不能太多，太多了内存与效率都低。

另外一种做法是存到搜索引擎里。

还有一种办法是你自己做一个btree，专门用于存贮URL。这样可能速度更快。btree放在分布式的文件系统上。

nutch是用hadoop的sequence file来存贮的。效率低，但是可行。

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python 简历模板_在线制作_python 简历模板免费使用

jl.fox009.com

pyhn，pyhn一键安装，永久使用，安装速度快

pyhn3.6.6/3.7/3.8/3.9 一键下载安装，无捆绑软件，安全无毒，适合小白，入门新手。赠送视频教程，安装，人工客服在线解决您的所有问题

soft1.dlyiykj.cn广告

Trae与AI深度集成，编程问题快速解决!

支持智能问答功能，提供代码解释、注释和错误修复，帮助开发者快速解决问题。

www.trae.com.cn广告

基于python的scrapy爬虫，关于增量爬取是怎么处理的

您可能关注的内容

其他类似问题

为你推荐：