如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

 我来答

3个回答

#合辑# 机票是越早买越便宜吗？

性芝彤a
2015-12-03 · 知道合伙人互联网行家

性芝彤a
知道合伙人互联网行家

采纳数：134 获赞数：5893

8年互联网营销从业经历； 3年新媒体营销经历。

向TA提问私信TA

关注

展开全部

如果不希望百度或 Google抓取网站内容，就需要在服务器的根目录中放入一个 robots.txt 文件，其内容如下：

User-Agent: *
Disallow: /

这是大部份网络漫游器都会遵守的标准协议，加入这些协议后，它们将不会再漫游您的网络服务器或目录。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况，可以使用百度站长工具进行查询。http://zhanzhang.baidu.com/robots/index

已赞过 已踩过<

评论收起

dzicrystal
2014-10-31 · TA获得超过1727个赞

知道小有建树答主

回答量：362

采纳率：0%

帮助的人：270万

我也去答题访问个人页

关注

展开全部

整个网站不给爬虫抓取内容
robots.txt
User-agent: *
Disallow: /

网站单页阻止多数爬虫，在header中置入
<meta name="robots" content="noindex">

网站单页阻止谷歌爬虫，在header中置入
<meta name="googlebot" content="noindex">

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

可以用采集工具去抓取网页数据

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫基本原理-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫基本原理，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

爬虫是啥Python全能工程师2024版，一专多能，就业无忧!

爬虫是啥7年精心打磨，上万学员好评如潮!从入门到实战，8阶段5大热门领域全覆盖!爬虫是啥Web/爬虫/AI/大数据...一网打尽，Python全栈技能尽在掌握!特惠价￥5399

class.imooc.com广告

高效完成语言学习，Kimi帮你

Kimi 智能生成文档，让语言学习创作更简单!

kimi.moonshot.cn广告

如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

您可能关注的内容

其他类似问题

为你推荐：