如何设置让网站禁止被爬虫收录？

一个内部业务系统，不想被爬虫收录。请问该如何做... 一个内部业务系统，不想被爬虫收录。
请问该如何做展开

 我来答

6个回答

#热议# 应届生在签三方时要注意什么？

直播行业顾问任长友
2016-07-05 · 提供传媒公司直播运营团队及主播系统培训

直播行业顾问任长友

采纳数：203 获赞数：3961

向TA提问私信TA

关注

展开全部

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如，要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。
以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加，添加如下语句：
<meta name="robots" content="noindex, nofollow">
3、通过服务器（如：Linux/nginx ）配置文件设置
直接过滤 spider/robots 的IP 段。
小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

已赞过 已踩过<

评论收起

深圳市超时代软件有限公司

广告2024-11-23

上网行为控制软件，全面监控「聊天内容」「电脑屏幕」「邮件内容」U盘，文件等。上网行为控制软件，有效规范员工上网行为，提升工作效率!

www.360mon.cn

张晓直
2018-03-30 · TA获得超过9334个赞

知道小有建树答主

回答量：269

采纳率：96%

帮助的人：84.7万

我也去答题访问个人页

关注

展开全部

1、网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。

2、屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫。

3、通过 robots.txt 文件屏蔽，可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。通过 meta tag 屏蔽，在所有的网页头部文件添加，添加如下语句：<meta name="robots" content="noindex, nofollow">。通过服务器（如：Linux/nginx ）配置文件设置，直接过滤 spider/robots 的IP 段。

本回答被网友采纳