如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

 我来答

3个回答

#热议# 不吃早饭真的会得胆结石吗？

性芝彤a
2015-12-03 · 知道合伙人互联网行家

性芝彤a
知道合伙人互联网行家

采纳数：134 获赞数：5892

8年互联网营销从业经历； 3年新媒体营销经历。

向TA提问私信TA

关注

展开全部

如果不希望百度或 Google抓取网站内容，就需要在服务器的根目录中放入一个 robots.txt 文件，其内容如下：

User-Agent: *
Disallow: /

这是大部份网络漫游器都会遵守的标准协议，加入这些协议后，它们将不会再漫游您的网络服务器或目录。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况，可以使用百度站长工具进行查询。http://zhanzhang.baidu.com/robots/index

已赞过 已踩过<

评论收起

dzicrystal
2014-10-31 · TA获得超过1727个赞

知道小有建树答主

回答量：362

采纳率：0%

帮助的人：268万

我也去答题访问个人页

关注

展开全部

整个网站不给爬虫抓取内容
robots.txt
User-agent: *
Disallow: /

网站单页阻止多数爬虫，在header中置入
<meta name="robots" content="noindex">

网站单页阻止谷歌爬虫，在header中置入
<meta name="googlebot" content="noindex">

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

可以用采集工具去抓取网页数据

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

怎么学爬虫-后羿采集器-小白神器-导出采集结果不限制

后羿采集器是新一代智能怎么学爬虫，不需要配置采集规则，为技术小白设计量身打造。导出数量无限制，可导出多种文件格式/网站/数据库，支持Win/Mac/Linux系统。

www.houyicaiji.com广告

如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

您可能关注的内容

其他类似问题

为你推荐：