python爬虫 如何解决http error 503问题

用python写了个爬虫,用来爬取八百万左右亚马逊商品链接的title,可是总是跑了几个就报httperror503问题,查了好多还是没解决,望高手们指点指点,谢谢啦... 用python写了个爬虫,用来爬取八百万左右亚马逊商品链接的title,可是总是跑了几个就报http error 503 问题,查了好多还是没解决,望高手们指点指点,谢谢啦 展开
 我来答
郭然的然情部落
2019-04-08
知道答主
回答量:34
采纳率:100%
帮助的人:4.7万
展开全部
从表面上看,Python爬虫程序运行中出现503错误是服务器的问题,其实真正的原因在程序,由于Python脚本运行过程中读取的速度太快,明显是自动读取而不是人工查询读取,这时服务器为了节省资源就会给Python脚本反馈回503错误。其实只要把爬取的速度放慢一点就好了。比如读取一条记录或几条记录后适当添加上time.sleep(10),这样就基本上不会出现503错误了。我本人在使用中一般是在每一次读取后都运行time.sleep(1)或time.sleep(3),具体的数值根据不同的网站确定。
老夭来了
2015-04-12 · 知道合伙人软件行家
老夭来了
知道合伙人软件行家
采纳数:1806 获赞数:8100
2008年从事软件开发,拥有多年的python,php,linux工作经验,发布过多个python,php的开源项目。

向TA提问 私信TA
展开全部

这个有主要有两种可能:

  1. 你生成的url不正确,这个你可以打印一下,找一个报503的url直接在url里访问,看看是否有问题。

  2. 亚马逊判断出你是爬虫,给禁止返回数据了,这个就需要伪装一下你的爬虫,比如修改爬取间隔,随机使用http header,或者使用代理ip。


如果解决了您的问题请采纳!
如果未解决请继续追问

本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2018-11-13
展开全部
自己做个代理服务器。例如618爬虫代理,再指向次一级代理。或者是直接让爬虫通过http proxy的参数设置去先把一个代理。 代理池通常是租来的,或者是扫描出来的。扫描出来的往往大部分都不可用。 爬虫的实现有几百种方案。通常建议直接从SCRAPY入手。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
woaihouzhuang
2015-04-12 · TA获得超过259个赞
知道小有建树答主
回答量:245
采纳率:100%
帮助的人:227万
展开全部
503表示服务器端出现错误,和你的代码无关;也有可能你爬取得 路径本身有问题
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
稳住别慌等等我
2018-08-21
知道答主
回答量:11
采纳率:0%
帮助的人:2.2万
展开全部
503可能是你的请求头有问题,不要问我为什么,我不知道原理,但是我遇见过错误,重写请求头
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
收起 更多回答(3)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式