如何禁止网络爬虫频繁爬自己网站

 我来答

2个回答

#热议# 空调使用不当可能引发哪些疾病？

大罗运营官

推荐于2016-06-28 · 专注互联网游戏知识技巧分享！

大罗运营官

采纳数：3528 获赞数：27515

向TA提问私信TA

关注

展开全部

可以设置robots.txt来禁止网络爬虫来爬网站。
方法：
首先，你先建一个空白文本文档（记事本），然后命名为：robots.txt；
（1）禁止所有搜索引擎访问网站的任何部分。
User-agent: *
Disallow: /
（2）允许所有的robots访问，无任何限制。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
还可以建立一个空文件robots.txt或者不建立robots.txt。

（3）仅禁止某个搜索引擎的访问（例如：百度baiduspider）
User-agent: BaiduSpider
Disallow:/
（4）允许某个搜索引擎的访问（还是百度）
User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
这里需要注意，如果你还需要允许谷歌bot，那么也是在“User-agent: *”前面加上，而不是在“User-agent: *”后面。
（5）禁止Spider访问特定目录和特定文件（图片、压缩文件）。
User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$
这样写之后，所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明，而不要写出“Disallow:/AAA.net/ /admin/”。

已赞过 已踩过<

评论收起

天使646
2013-10-25 · 超过58用户采纳过TA的回答

知道答主

回答量：113

采纳率：0%

帮助的人：107万

我也去答题访问个人页

关注

展开全部

可以设置 robots.txt来禁止爬虫来爬服务器。网上查了下资料，默认网站根目录下没有放置robots.txt文件，为允许所有网络爬虫搜索所有文件。汗！！
在根目录放一个文件robots.txt，但好像不会立刻生效。
如要禁止sogou的爬虫，可以在robots.txt这样设置
User-agent:Sogou web spider
Disallow: /
有个笨方法，查看日志，观察浏览器特征，如sogou的特征为Sogou web spider，可以在apache里面设置
setenvif User-Agent Sogou web spider* den
Order deny,allow
deny from env=den

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫教程-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫教程，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

网络爬虫程序让精通-爬虫程序-问题的专家来帮助您!

www.akamai.com

2023python网络爬虫每天免费网上学习python网络爬虫

免费网上学习python网络爬虫，国内讲师机构专业授课，适合从基础学习，挑战从入门到熟练运用，海量python网络爬虫学习从入门到编程技术高超 python编程能力快速提升

www.huke88.com广告

如何禁止网络爬虫频繁爬自己网站

您可能关注的内容

其他类似问题

为你推荐：