使用HtmlParser抓取网页的时候,在根据URL获取页面输入流时,部分页面返回403,还有部分页面返回200

问题如下:返回403的网站做了什么处理来防止我抓取页面信息... 问题如下:返回403的网站做了什么处理来防止我抓取页面信息 展开
 我来答
keven1006
2013-02-22 · TA获得超过684个赞
知道小有建树答主
回答量:820
采纳率:66%
帮助的人:374万
展开全部
403未授权。
人家一般都是根据同一个IP在一段时间之内的访问次数来控制的。你访问速度太快一般会导致系统返回403.
追问
不会啊,我只访问了仅仅几次,肯定不是访问频率的问题,应该是对方判断出我是通过程序访问的URL不是浏览器访问的,只不过不知道他是通过什么渠道防止的
追答
这样啊,呵呵,防采集的措施很多的,计算访问频率是最基础的。
每个情况都要具体分析,你通过程序和浏览器的区别在于浏览器有cookie,session,页面脚本计算生成的一些后台数据,随机变量等等。程序需要模拟浏览器的话需要做的事情比较多。
我建议你可以用程序控制浏览器实现采集,不过要想做一个好的采集程序是很大的工程的。防采集的措施要讲可以写本书。
你也可以参考一下专业的网页数据采集公司的做法,百度一下数据农场,他们对防采集的突破能力应该是目前领先的。
yconansz
2013-02-24 · TA获得超过5033个赞
知道大有可为答主
回答量:1.7万
采纳率:0%
帮助的人:4314万
展开全部
403没有被授权。
人一般都控制的一段时间内按照相同的IP访问。您的访问速度实在太快了,一般会导致系统恢复到403。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式