使用HtmlParser抓取网页的时候，在根据URL获取页面输入流时，部分页面返回403，还有部分页面返回200

问题如下：返回403的网站做了什么处理来防止我抓取页面信息... 问题如下：返回403的网站做了什么处理来防止我抓取页面信息展开





 我来答

2个回答

#热议# 不吃早饭真的会得胆结石吗？

keven1006
2013-02-22 · TA获得超过684个赞

知道小有建树答主

回答量：820

采纳率：66%

帮助的人：374万

我也去答题访问个人页

关注

展开全部

403未授权。
人家一般都是根据同一个IP在一段时间之内的访问次数来控制的。你访问速度太快一般会导致系统返回403.

追问

不会啊，我只访问了仅仅几次，肯定不是访问频率的问题，应该是对方判断出我是通过程序访问的URL不是浏览器访问的，只不过不知道他是通过什么渠道防止的

追答

这样啊，呵呵，防采集的措施很多的，计算访问频率是最基础的。
每个情况都要具体分析，你通过程序和浏览器的区别在于浏览器有cookie，session，页面脚本计算生成的一些后台数据，随机变量等等。程序需要模拟浏览器的话需要做的事情比较多。
我建议你可以用程序控制浏览器实现采集，不过要想做一个好的采集程序是很大的工程的。防采集的措施要讲可以写本书。
你也可以参考一下专业的网页数据采集公司的做法，百度一下数据农场，他们对防采集的突破能力应该是目前领先的。

本回答由提问者推荐

已赞过 已踩过<

评论收起

yconansz
2013-02-24 · TA获得超过5033个赞

知道大有可为答主

回答量：1.7万

采纳率：0%

帮助的人：4314万

我也去答题访问个人页

关注

展开全部

403没有被授权。
人一般都控制的一段时间内按照相同的IP访问。您的访问速度实在太快了，一般会导致系统恢复到403。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

使用HtmlParser抓取网页的时候，在根据URL获取页面输入流时，部分页面返回403，还有部分页面返回200

其他类似问题

为你推荐：