如何应付重度反爬虫的网站

 我来答
匿名用户
2016-11-30
展开全部
可以试试前嗅的ForeSpider采集系统。像很多重度反爬虫的网站都能采,比如企业信息公示系统、自然基金会网站、58同城的电话号码什么的。
ForeSpider数据采集系统具备全面的采集范围、精准的数据精度、绝佳的抓取性能、简易的可视化操作、智能的自动化采集,使企业能够以很少的人工成本,快速获取互联网中结构化或非结构化的数据。
软件几乎可以采集互联网上所有公开的数据,通过可视化的操作流程,从建表、过滤、采集到入库一步到位。软件首创了面向对象的爬虫脚本语言系统,如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集。软件同时支持正则表达式操作,可以通过可视化、正则、脚本任意方式,实现对数据的清洗、规范。
台式机单机采集能力可达4000-8000万,日采集能力超过500万。服务器单机集群环境的采集能力可达8亿-16亿,日采集能力超过4000万。并行情况下可支撑百亿以上规模数据链接,堪与百度等搜索引擎系统媲美。
一.软件可以采集的范围:
1.登录和cookie
支持自动登录,自动获取cookie信息。
2.验证码
接入第三方打码平台,最多3秒自动返回大码结果。
3.搜索栏检索
支持各种搜索栏检索关键词,可批量导入数十万关键词。
4.各种协议
支持http、https、各类APP的协议等。
5.JavaScript和Ajax动态生成的内容
支持所有JavaScript生成的动态内容。
6.IP代理
支持IP代理,不用担心封锁IP。
7.post请求和OAuth认证
支持post请求和OAuth认证的网页。
8.搜索引擎全网数据挖掘
可以通过一个模板,采集搜索引擎,挖掘所需数据。

二.软件不能采集的范围:
1.非公开数据
网络爬虫技术是一种批量数据下载技术,不是黑客技术,只能采集前端浏览器上能显示的数据内容,对于网站的服务器后端数据,如用户数据等,是不能采集的。
对于需要账号登录才能查看的内容,如果您有账号可以登录,是可以采集该账号下可见数据的;对于其他账号下的内容,也同样不能够采集。
2.需要手机扫码的数据
对于需要扫码后才能显示的数据,无法实现批量采集。
3.对于账号有权限限制的数据
有些网站限制一个登陆账号一天只能查看x条数据,如果用户没有多余的账号,是无法突破这样的限制的。
数阔八爪鱼采集器丨RPA机器人
2021-07-29 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
首先要明确为什么会反爬
反爬虫机制的触发一般是因为在短时间内多次访问同一个网站,被网站认定为恶意访问。这种情况下可以尝试放慢爬取数据的速度,让速度在网站的允许范围之内就可以。
在爬取数据的同时不要对人家的服务器造成一些不好的影响。
如果网页的反爬虫比较严重,建议放弃对该网站的爬取。因为人家设置了防采集,说明不想数据被采集,如果强行采集,可能会侵犯到法律的,建议谨慎
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
IPIDEA全球HTTP
2020-08-15 · 百度认证:江苏艾迪信息科技官方账号
IPIDEA全球HTTP
IPIDEA是国内领先的动态IP服务商,整合全球240+国家和地区真实住宅IP资源量9000万 我们提供7x24小时的全天候多语种咨询,真实住宅IP应用多种应用场景, 支持百万高并发
向TA提问
展开全部
一、构建合理的HTTP请求头
HTTP的请求头是在你每次向网络服务器发送请求时,传递的一组属性和配置信息。由于浏览器和Python爬虫发送的请求头不同,有可能被反爬虫检测出来。

二、设置cookie的学问
Cookie是一把双刃剑,有它不行,没它更不行。网站会通过cookie跟踪你的访问过程,如果发现你有爬虫行为会立刻中断你的访问,比如你特别快的填写表单,或者短时间内浏览大量页面。而正确地处理cookie,又可以避免很多采集问题,建议在采集网站过程中,检查一下这些网站生成的cookie,然后想想哪一个是爬虫需要处理的。

三、正常的时间访问路径
合理控制采集速度,是Python爬虫不应该破坏的规则,尽量为每个页面访问时间增加一点儿间隔,可以有效帮助你避免反爬虫。

四、使用http
对于分布式爬虫和已经遭遇反爬虫的人来说,使用http将成为你的首选。Ipidea分布地区广,可满足分布式爬虫使用需要。支持api提取,对Python爬虫来说再适合不过。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式