scrapy爬取数据301重定向错误如何解决

 我来答
程序员养大闸蟹
2018-06-14 · 自家的蟹塘,苏州阳澄湖蓝标大闸蟹养殖户
程序员养大闸蟹
采纳数:2362 获赞数:20622

向TA提问 私信TA
展开全部
301是永久重定向问题,国内网站反扒严重,所以要破解网站的反扒机制。
1,伪装http 头
chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user
2,代理ip,对于限制ip 或者ip被封的采用代理ip
代理ip 可以抓取,本人每天监控十多个网站,每天能抓取一批,计划以后每天公布几个可以访问百度的代理ip,注意用高匿的最安全
3,有些需要进行登录
进行模拟登录,或者手动登录了 记下cookie 天上
4,验证码
目前有些简单的验证码机器可以识别下,有些不行,需要人工输入,当出现反爬,报警后,再人工干预下
5,注意抓取频度
这是反爬的一个最简单,但是很实用的方式
6,可以使用拨号的ip,定期拨号更换ip,注意间断一段时间,保证ip变化
7,采用模拟浏览器的一些方式,进行模拟人的行为,包括自动填表,自动点击,自动滑动滚动条等,可以用selenium 和htmlunit 实现,phtomjs 也是一个不错的选择
8,分析网站反爬的一些策略,进行相应的反反爬策略去除,比如有些转为爬虫设置的一些坑,需要识别出来,具体大家可以搜搜一些
数阔八爪鱼采集器丨RPA机器人
2023-08-03 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
scrapy爬取数据时遇到301重定向错误,可以尝试以下解决方法:1. 检查URL是否正确:确保URL地址正确无误。2. 检查User-Agent:有些网站会根据User-Agent来判断请求是否合法,可以尝试修改User-Agent来解决问题。3. 使用重定向中间件:在Scrapy中可以使用重定向中间件来处理重定向问题。可以在settings.py文件中启用重定向中间件,并设置合适的优先级。4. 使用RedirectMiddleware:如果重定向中间件无法解决问题,可以尝试使用Scrapy内置的RedirectMiddleware来处理重定向。可以在settings.py文件中启用RedirectMiddleware。5. 检查网站的robots.txt文件:有些网站会在robots.txt文件中设置禁止爬取的规则,可以检查一下是否有相关规则导致重定向错误。6. 检查网站的反爬虫策略:有些网站会设置反爬虫策略,如验证码、IP封禁等,可以检查一下是否有相关策略导致重定向错误。7. 使用代理IP:如果网站对IP有限制,可以尝试使用代理IP来解决问题。8. 调整下载延迟:有些网站对频繁请求有限制,可以尝试调整下载延迟来解决问题。9. 联系网站管理员:如果以上方法都无法解决问题,可以尝试联系网站管理员,了解是否有其他限制导致重定向错误。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式