可以用爬虫来获取一些网站的内容，那么一些网站会做反爬虫程序么？难做么？会对搜索引擎造成什么影响？

 我来答

1个回答

#热议# 上班途中天气原因受伤算工伤吗？

lyz810
2014-02-23 · 知道合伙人互联网行家

lyz810
知道合伙人互联网行家

采纳数：7531 获赞数：31777

前端开发工程师

向TA提问私信TA

关注

展开全部

正规情况下可以用robots协议阻止搜索引擎爬取网站
但并不是所有的搜索引擎都遵循robots协议(某些知名搜索引擎也不遵守，该协议不是强制遵循的)
一般反爬虫的程序最简单的方法就是通过UserAgent识别爬虫，但并不是所有爬虫都有明确的UserAgent，还有些不知名的搜索引擎不设置自己独有的UserAgent，同时UserAgent也可以被任意的伪造，所以并不能保证完全过滤一些爬虫。
为了更进一步识别爬虫，只能通过限制某个IP的访问，如果IP在变化也很难阻止其爬行，仅能根据一些访问行为进行分析是否为爬虫自动抓取，如果是爬虫，则可以用一个403返回码阻止网页的显示。这样搜索引擎抓到的页面都是403错误页面，具体内容无法抓取。
如果有人专门想要抓取你的网站内容，它可以专门定制一种策略来想办法模拟人工访问，很难做到彻底阻止。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

爬虫软-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能爬虫软，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

可以用爬虫来获取一些网站的内容，那么一些网站会做反爬虫程序么？难做么？会对搜索引擎造成什么影响？

您可能关注的内容

其他类似问题

为你推荐：