最严格的反爬虫策略能不能杀死所有的爬虫

 我来答

1个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

科创17
2022-06-07 · TA获得超过5901个赞

知道小有建树答主

回答量：2846

采纳率：100%

帮助的人：175万

我也去答题访问个人页

关注

展开全部

最近听到很多朋友抱怨，某某网站的反爬策略又升级了，更加难爬了。有朋友担心，以后的反爬虫机制会不会杀死所有的爬虫，那样就没法工作了。其实，这种可能性基本没有，毕竟反爬虫机制最初的目标是反抗简单粗暴的爬虫，缓解服务器的压力。它不可能不让真实用户访问网站，不然就没有意义了，而爬虫则可以尽量的伪装成真实用户。

那么如何尽量的伪装成真实用户呢？我们需要研究真实的用户是如何访问网站的，有哪些需要注意的地方。

一、访问频率

真实用户浏览一个网页比较慢，一般都要十几秒到几分钟，甚至更长，那么爬虫也不能过快，不能1秒几个网页甚至十几个网页，那样太假了，肯定会被识别出是爬虫。

二、随机访问

真实用户访问网页是无规律的，突然想看什么内容就点开什么网页，只访问网站上的一部分内容。有些爬虫则是按照顺序一路访问下去，将整个网站都遍历完，这样很容易被识别是爬虫。

三、随机休眠

真实用户访问每一个网页的时间是不定的，有的网页十几秒就看完了，有的网页要停留好几分钟。有些爬虫则是访问所有的网站都用相同的时间，休眠时间也都是相同的，这样很容易被识别出是爬虫。

四、访问次数

真实用户短时间内访问一个网站的次数是有限的，比如一天几百次。而爬虫用户一天可能访问上千次上万次，这样的数量差距足以说明问题，所以单IP的访问次数需要控制。

五、单IP访问次数

因为反爬机制限制访问频率，访问次数，为了提高工作效率，爬虫工程师想到了用代理IP来应对。有的爬虫用了大量的代理IP同时工作，每个代理IP 都访问到99次（假如目标网站限制单IP访问网站100次）停止访问，切换新的代理IP进行访问，这样也很容易被识别，因为这一切都太有规律了，需要设置代理IP随机访问网站的次数。

以上就是真实用户访问的几种特性，作为爬虫，虽说不能百分之百模仿真实用户，但也应该尽量向这方面伪装。当然，不同的网站具有不同的反爬策略，这个需要我们去具体分析，至于一些最基础的User-Agent、Referer、Cookies等header参数我们也不能忽略，需要时刻注意。爬虫可能会被反爬机制阻挡，但永远杀不死。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

最严格的反爬虫策略能不能杀死所有的爬虫

其他类似问题

为你推荐：