如何突破豆瓣爬虫限制频率
2个回答
2019-04-10
展开全部
做好 cookie UA 伪装,豆瓣带 cookie 的抓取保持一定节奏不会被 403 ,会跳转验证码,把验证码简单二值化然后扔给开放的 OCR API ,然后走下英文单词纠错(豆瓣验证码基本都是英文单词),自动识别率基本是超过 30% 。找到这个节奏的最大并发限制,然后慢慢抓,不行可以开多 ip 代理这么抓。 几个月前抓豆瓣基本是这么写的。先大概计算下需要抓的页面数量级,有时候 1 秒一个页面,慢慢抓,抓几天也能满足需要,不行再上代理。
Storm代理
2023-07-25 广告
2023-07-25 广告
StormProxies是一家可靠的代理服务提供商,提供原生IP(住宅原生IP)和高匿名代理服务。以下是关于StormProxies的原生IP服务的一些信息:1. 住宅原生IP:StormProxies提供的住宅原生IP是指从真实的家庭或企...
点击进入详情页
本回答由Storm代理提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询