Python爬虫采集遇到403问题怎么办？

最近使用爬虫程序去爬一些电商网站，但是爬取的效果不怎么好，总是返回403，也使用过代理，是代理的问题，还是程序的问题。各位大神请指教？... 最近使用爬虫程序去爬一些电商网站，但是爬取的效果不怎么好，总是返回403，也使用过代理，是代理的问题，还是程序的问题。各位大神请指教？展开

 我来答

提示该问答中所提及的号码未经验证，请注意甄别。

3个回答

#合辑# 面试问优缺点怎么回答最加分？

盗墓者18
2018-01-09 · TA获得超过2028个赞

知道小有建树答主

回答量：820

采纳率：84%

帮助的人：259万

我也去答题访问个人页

关注

展开全部

403是网页状态码，表示访问拒绝或者禁止访问。

应该是你触发到网站的反爬虫机制了。

解决方法是：

1.伪造报文头部user-agent（网上有详细教程不用多说）
2.使用可用代理ip，如果你的代理不可用也会访问不了
3.是否需要帐户登录，使用cookielib模块登录帐户操作

4.如果以上方法还是不行，那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话：

使用phatomjs或者selenium模块试试。

还不行使用scrapy等爬虫框架看看。

以上都不行，说明这网站反爬机制做的很好，爬不了了，没法了，不过我觉得很少有这种做得很好的网站

已赞过 已踩过<

评论收起

匿名用户
2019-03-21

展开全部

1、通过Headers反爬虫：
从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。
2、基于用户行为反爬虫：
直接使用芝麻IP代理，高匿名。
去测试一下，看一看具体是什么问题。

已赞过 已踩过<

评论收起

匿名用户
2018-11-13

展开全部

618IP代理为您解答
您好，一般您说的更换IP的软件，使用体验好的都是付费软件，免费的要么不好用，要么有安全隐患，不建议您使用免费的IP更换软件。希望能够帮到您。

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

Python爬虫采集遇到403问题怎么办？

其他类似问题

为你推荐：