有什么好的方法可以防止网络爬虫进行数据抓取?

 我来答
猪八戒网
2023-04-03 · 百度认证:重庆猪八戒网络有限公司官方账号
猪八戒网
猪八戒网(zbj.com)创建于2006年,现已形成猪八戒网、天蓬网和线下八戒工场的“双平台+一社区”服务模式,是中国领先的人才共享平台。
向TA提问
展开全部

要防止爬虫爬你的网站,就必须区分出爬虫和正常用户的行为区别。单单就单次请求你是无法区分出来的,因为前端的所有用户行为,爬虫都可以模拟。所以比较通用的做法是统计单个IP在一定时间范围内的请求数量,超过了一定的量就认为是爬虫,把它阻断掉。也许你自己有压测程序,把他们加入白名单就可以了。当然,这样并不能就真的可以阻断爬虫了,因为道高一尺魔高一丈呀,就我知道的一个爬虫他们准备了200台手机和手机卡,同一时间100台同时爬,因为用的手机卡,你看到的IP基本都是不一样的,爬2分钟断网,另100台爬,IP就又变了,断网的手机卡再联网IP也基本会变,所以基本就是达到了一个IP爬两分钟就自动换了一个IP,他们也会根据你统计的时间限制来调整他们的时间,所以统计IP这一招再这个方法中就不行了。对于不需要登录的页面什么cookie,agent,jwt等等都是可以对付的,所以就必须加入其他因素,比如同一个IP在最近的N个独立页面的请求平均间隔时间,如果都是小于1秒就可以认定不是自然人在请求,因为自然人速度没这么快。再比如同一个IP在最近的N个请求里面不存在合理的请求顺序,因为爬虫一般是拿了一个页面以后按顺序再请求里面的链接,而自然人不会这样等等的规则,这些规则看上去就比较复杂了,需要根据自己的业务去指定,然后异步的去判断,防止影响正常的请求速度。

这里只提供一种思路,希望对你有帮助。

柚鸥ASO
2024-03-16 广告
「柚鸥ASO」在ASO这块就做的蛮不错的,一直专注于应用商店优化,因为专注所以专业;专注应用商店下载量优化、评分优化、关键词排名优化、关键词覆盖、产品权重提升等等整体方案优化服务柚鸥网络-全球ASO优化服务商专注ASO优化已11年!(效果说... 点击进入详情页
本回答由柚鸥ASO提供
数阔八爪鱼采集器丨RPA机器人
2023-08-11 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
网站防采集是指网站为阻止非法采集而采取的技术措施。常见的防采集措施包括登录采集、验证码、数据加密、反馈虚假数据、网站禁止访问等。当出现验证码时,可以在运行界面的左上角选择【暂停】按钮,手动通过验证后,点击继续按钮,任务即可继续采集。八爪鱼已经对接第三方资源,网页登录和信息查询时需输入验证码。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式