python爬取页面数据错误，连续爬很多页数。我主要改变的是post里面的参数pageno 20

爬数据的时候，比如有800页数据要爬，爬到400多页会出现返回400错误，没有数据。但是如果将程序从400页到800再重新爬，又不会报错。求解决方法... 爬数据的时候，比如有800页数据要爬，爬到400多页会出现返回400错误，没有数据。但是如果将程序从400页到800再重新爬，又不会报错。
求解决方法展开

 我来答

4个回答

#热议# 普通体检能查出癌症吗？

匿名用户
2016-05-24

展开全部

给你贴一下我前一段时间回答的类似问题，用的soup，还有一个用的正则就不贴了，手机不太方便，如下。
import beautifulsoup
import urllib2

def main():

userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL
if __name__=="__main__":

main();

PS：如果不会改的话追问一下，回头我用电脑给你写一份

已赞过 已踩过<

评论收起

上善若水D2TR
2020-06-25

知道答主

回答量：1

采纳率：0%

帮助的人：603

我也去答题访问个人页

关注

展开全部

被检测到你是爬虫了

已赞过 已踩过<

评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-27 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

你这个应该是检测到你是爬虫了。

已赞过 已踩过<

评论收起

IPIDEA全球HTTP
2020-08-08 · 百度认证:江苏艾迪信息科技官方账号

IPIDEA全球HTTP

IPIDEA是国内领先的动态IP服务商，整合全球240+国家和地区真实住宅IP资源量9000万我们提供7x24小时的全天候多语种咨询，真实住宅IP应用多种应用场景，支持百万高并发

向TA提问

关注

展开全部

是因为被检测到爬虫了吗，对于爬虫用户而言，网站的反爬机制可以说是他们的头号敌人。反爬机制是为了避免爬虫爬取数据过于频繁，给服务器造成过重的负担导致服务器崩溃而设置的机制，它其实也有几种不同的方式，下面我们就来说说。
1、根据UA机制识别爬虫。
UA的全称是UserAgent，它是请求浏览器的身份标志，很多网站使用它来是识别爬虫的标志，如果访问请求的头部中没有带UA那么就会被判定为爬虫，但由于这种要针对这种反爬虫机制十分容易，即随机UA，所以这种反爬机制使用的很少。
2、根据访问频率识别爬虫。
爬虫为了保证效率，往往会在很短的时间内多次访问目标网站，所以可以根据单个IP访问的频率来判断是否为爬虫。并且，这种反爬方式比较难以被反反爬机制反制，只有通过更换代理IP来保证效率，IPIDEA提供高匿稳定的IP同时更注重用户隐私的保护，保障用户的信息安全。
3、通过Cookie和验证码识别爬虫。
Cookie就是指会员制的账号密码登陆验证，这就可以根据限制单账号抓取频率来限制爬虫抓取，而验证码完全是随机的，爬虫脚本无法正确识别，同样可以限制爬虫程序。

已赞过 已踩过<

评论收起

2条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python爬取页面数据错误，连续爬很多页数。我主要改变的是post里面的参数pageno 20

其他类似问题

为你推荐：