如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

 我来答

3个回答

#热议# 发烧为什么不能用酒精擦身体来退烧？

性芝彤a
2015-12-03 · 知道合伙人互联网行家

性芝彤a
知道合伙人互联网行家

采纳数：134 获赞数：5896

8年互联网营销从业经历； 3年新媒体营销经历。

向TA提问私信TA

关注

展开全部

如果不希望百度或 Google抓取网站内容，就需要在服务器的根目录中放入一个 robots.txt 文件，其内容如下：

User-Agent: *
Disallow: /

这是大部份网络漫游器都会遵守的标准协议，加入这些协议后，它们将不会再漫游您的网络服务器或目录。

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

实例分析：淘宝网的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

User-agent: baiduspider

Disallow: /

很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

网站robots的情况，可以使用百度站长工具进行查询。http://zhanzhang.baidu.com/robots/index

已赞过 已踩过<

评论收起

杭州快忆科技有限公司

广告2024-12-22

后羿采集器是新一代智能网页采集工具，不需要配置采集规则，为技术小白设计量身打造。导出数量无限制，可导出多种文件格式/网站/数据库，支持Win/Mac/Linux系统。

www.houyicaiji.com

dzicrystal
2014-10-31 · TA获得超过1727个赞

知道小有建树答主

回答量：362

采纳率：0%

帮助的人：271万

我也去答题访问个人页

关注

展开全部

整个网站不给爬虫抓取内容
robots.txt
User-agent: *
Disallow: /

网站单页阻止多数爬虫，在header中置入
<meta name="robots" content="noindex">

网站单页阻止谷歌爬虫，在header中置入
<meta name="googlebot" content="noindex">

本回答被提问者和网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

数阔八爪鱼采集器丨RPA机器人
2021-07-28 · 前往八爪鱼RPA应用市场，免费获取机器人

数阔八爪鱼采集器丨RPA机器人

向TA提问

关注

展开全部

可以用采集工具去抓取网页数据

已赞过 已踩过<

评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

爬虫作用-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能爬虫作用，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

网络爬虫是什么意思-4.0Turbo-国内入口

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co广告

如何阻止百度baidu爬虫和谷歌蜘蛛抓取网站内容

您可能关注的内容

其他类似问题

为你推荐：