
1个回答
展开全部
。。。你这思路错了吧。。
你那个304是浏览器的 你的爬出是基于服务器的 他不会记录像浏览器那样的缓冲 modifyTime等
大概思路 应该是的爬出肯定是定时服务
你可以抓取到后 跟你自己的数据库对比 如果有的话 你就不进行操作
而且如果你是自定义抓取解析的话 你的爬出是应该是随着人家的网站变动而变动的
如果你是做数据分析,数据存储的话 基本不用写具体的爬虫逻辑,找个框架不停的爬取主站的信息 ,自己分析链接 然后入库 建立索引
你那个304是浏览器的 你的爬出是基于服务器的 他不会记录像浏览器那样的缓冲 modifyTime等
大概思路 应该是的爬出肯定是定时服务
你可以抓取到后 跟你自己的数据库对比 如果有的话 你就不进行操作
而且如果你是自定义抓取解析的话 你的爬出是应该是随着人家的网站变动而变动的
如果你是做数据分析,数据存储的话 基本不用写具体的爬虫逻辑,找个框架不停的爬取主站的信息 ,自己分析链接 然后入库 建立索引
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询