如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

 我来答

3个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

性芝彤a
2015-12-03 · 知道合伙人互联网行家

性芝彤a
知道合伙人互联网行家

采纳数：134 获赞数：5896

8年互联网营销从业经历； 3年新媒体营销经历。

向TA提问私信TA

关注

展开全部

如果不希望百度或 Google抓取网站内容，就需要在服务器的根目录中放入一个 robots.txt 文件，其内容如下：

User-Agent: *
Disallow: /

这是大部份网络漫游器都会遵守的标准协议，加入这些协议后，它们将不会再漫游您的网络服务器或目录。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况，可以使用百度站长工具进行查询。http://zhanzhang.baidu.com/robots/index

已赞过 已踩过<

评论收起

dzicrystal
2014-10-31 · TA获得超过1727个赞

知道小有建树答主

回答量：362

采纳率：0%

帮助的人：272万

我也去答题访问个人页

关注

展开全部

整个网站不给爬虫抓取内容
robots.txt
User-agent: *
Disallow: /

网站单页阻止多数爬虫，在header中置入
<meta name="robots" content="noindex">

网站单页阻止谷歌爬虫，在header中置入
<meta name="googlebot" content="noindex">

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

可以用采集工具去抓取网页数据

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

怎么学爬虫-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能怎么学爬虫，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

爬虫是什么全能工程师养成，零基础到实战，全面升级!

爬虫是什么涵盖Python基础编程、Web开发、数据分析等5大热门领域，从入门到实战，爬虫是什么涵盖多领域企业级项目，真实项目全流程开发，6万+手敲代码，全面提升你的实力

class.imooc.com广告

如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

您可能关注的内容

其他类似问题

为你推荐：