怎样避开豆瓣对爬虫的封锁，从而抓取豆瓣上电影内容

 我来答

3个回答

#热议# 什么是淋病？哪些行为会感染淋病？

IPIDEA全球HTTP
2020-10-10 · 百度认证:江苏艾迪信息科技官方账号

IPIDEA全球HTTP

IPIDEA是国内领先的动态IP服务商，整合全球240+国家和地区真实住宅IP资源量9000万我们提供7x24小时的全天候多语种咨询，真实住宅IP应用多种应用场景，支持百万高并发

向TA提问

关注

展开全部

在互联网中，有网络爬虫的地方，绝对少不了反爬虫的身影。网站反爬虫的拦截前提是要正确区分人类访问用户和网络机器人，当发现可疑目标时，通过限制IP地址等措施阻止你继续访问。爬虫该如何突破反爬虫限制？

一、构建合理的HTTP请求头
HTTP的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。由于浏览器和Python爬虫发送的请求头不同，有可能被反爬虫检测出来。

二、设置cookie的学问
Cookie是一把双刃剑，有它不行，没它更不行。网站会通过cookie跟踪你的访问过程，如果发现你有爬虫行为会立刻中断你的访问，比如你特别快的填写表单，或者短时间内浏览大量页面。而正确地处理cookie，又可以避免很多采集问题，建议在采集网站过程中，检查一下这些网站生成的cookie，然后想想哪一个是爬虫需要处理的。

三、正常的时间访问路径
合理控制采集速度，是Python爬虫不应该破坏的规则，尽量为每个页面访问时间增加一点儿间隔，可以有效帮助你避免反爬虫。

四、使用http
对于分布式爬虫和已经遭遇反爬虫的人来说，使用http将成为你的首选。Ipidea分布地区广，可满足分布式爬虫使用需要。支持api提取，对Python爬虫来说再适合不过。

已赞过 已踩过<

评论收起

匿名用户
2017-01-04

展开全部

多IP，清COOKIES，伪造机器码

已赞过 已踩过<

评论收起

匿名用户
2017-01-07

展开全部

用前嗅的ForeSpider数据采集软件可以采集，我之前采过豆瓣的影评，可以设置各种过滤规律，比如我只要豆瓣评分6.0以上的电影，就可以精确的过滤。ForeSpider可以智能模拟浏览器和用户行为，突破反爬虫限制。可以设置代理IP，并且可以自动过滤优质IP代理，提高使用代理的速度。
对于一些高难度的网站，反爬虫措施比较多，可以使用ForeSpider内部自带的爬虫脚本语言系统，简单几行代码就可以采集到高难度的网站。
可以去下载免费版，免费版不限制采集功能。有详细的操作手册可以学习。如果自己不想学习，可以让前嗅进行配置。
而且客服可以教你怎样用，有问题出错了客服会远程操作，非常好的服务态度。

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

哪些网站可以使用爬虫免费发布试用商品，精准获客点评

哪些网站可以使用爬虫专业提供免费发布试用商品，免费推广商品，获取优质点评反馈。立即咨询详情，24小时在线服务，欢迎您来咨询商务合作。

怎样避开豆瓣对爬虫的封锁，从而抓取豆瓣上电影内容

您可能关注的内容

其他类似问题

为你推荐：