如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?

 我来答
小凯的小郭
高粉答主

2014-04-23 · 繁杂信息太多,你要学会辨别
知道顶级答主
回答量:3.4万
采纳率:85%
帮助的人:1.7亿
展开全部
网站的robots.txt文件一定要存放在网站的根目录。搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robots.txt,搜索引擎机器人通过robots.txt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。注意:网站的robots.txt文件一定要存放在网站的根目录。robots.txt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: / 禁止所有搜索引擎抓取某些特定目录
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/ 允许访问特定目录中的部分url
User-agent: *
Allow: /158
Allow: /joke 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
仅允许百度抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$ 1.屏蔽404页面
Disallow: /404.html 2.屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把他屏蔽掉。
Disallow: /158/ 3.屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX?123/123.html我们要屏掉/XXX?123 页面,代码如下:
Disallow: /XXX? 4.告诉搜索引擎你的sitemap.xml地址
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式