如何设置让网站禁止被爬虫收录?

一个内部业务系统,不想被爬虫收录。请问该如何做... 一个内部业务系统,不想被爬虫收录。
请问该如何做
展开
 我来答
直播行业顾问任长友
2016-07-05 · 提供传媒公司直播运营团队及主播系统培训
直播行业顾问任长友
采纳数:203 获赞数:3961

向TA提问 私信TA
展开全部
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

比如,要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加,添加如下语句:
<meta name="robots" content="noindex, nofollow">
3、通过服务器(如:Linux/nginx )配置文件设置
直接过滤 spider/robots 的IP 段。
小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。
张晓直
2018-03-30 · TA获得超过9334个赞
知道小有建树答主
回答量:269
采纳率:96%
帮助的人:84.7万
展开全部

1、网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。

2、屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫。

3、通过 robots.txt 文件屏蔽,可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。通过 meta tag 屏蔽,在所有的网页头部文件添加,添加如下语句:<meta name="robots" content="noindex, nofollow">。通过服务器(如:Linux/nginx )配置文件设置,直接过滤 spider/robots 的IP 段。

本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
乌光QS
2012-09-11 · TA获得超过1365个赞
知道小有建树答主
回答量:464
采纳率:100%
帮助的人:444万
展开全部
你可以在robot.txt中把爬虫的Agent禁止掉。看百度百科的参考资料。但是这只能禁那些尊重robot.txt规定的爬虫,如果爬虫硬是不管你在robot.txt里的规定,要收入你的网站,你也没有办法(前一段时间好像有这种新闻)。最好的方法还是要有用户认证系统。

参考资料: http://baike.baidu.com/view/933207.htm

本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
坚韧又非凡灬小猫J
2019-05-07
知道答主
回答量:18
采纳率:0%
帮助的人:1.3万
展开全部
在根目录下加一个robots.txt文件。这只是一个协议文件,是告诉蜘蛛抓取哪些网页和不抓取哪些网页。如果是不收录,就在源代码下加robots meta标签就可以。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
欢快又健壮的丁香
2020-07-08
知道答主
回答量:17
采纳率:0%
帮助的人:8907
展开全部

只要网站能被访问,都可以写程序将信息爬下来。robots只能防搜索引擎以及一些常用的爬虫技术。只要可以正常访问就能将数据爬下来,如下流程:

网页链接

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 2条折叠回答
收起 更多回答(4)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式