使用HtmlParser抓取网页的时候,在根据URL获取页面输入流时,部分页面返回403,还有部分页面返回200
2个回答
展开全部
403未授权。
人家一般都是根据同一个IP在一段时间之内的访问次数来控制的。你访问速度太快一般会导致系统返回403.
人家一般都是根据同一个IP在一段时间之内的访问次数来控制的。你访问速度太快一般会导致系统返回403.
追问
不会啊,我只访问了仅仅几次,肯定不是访问频率的问题,应该是对方判断出我是通过程序访问的URL不是浏览器访问的,只不过不知道他是通过什么渠道防止的
追答
这样啊,呵呵,防采集的措施很多的,计算访问频率是最基础的。
每个情况都要具体分析,你通过程序和浏览器的区别在于浏览器有cookie,session,页面脚本计算生成的一些后台数据,随机变量等等。程序需要模拟浏览器的话需要做的事情比较多。
我建议你可以用程序控制浏览器实现采集,不过要想做一个好的采集程序是很大的工程的。防采集的措施要讲可以写本书。
你也可以参考一下专业的网页数据采集公司的做法,百度一下数据农场,他们对防采集的突破能力应该是目前领先的。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询