robots是什么以及如何正确建立robots文件

 我来答
匿名用户
2017-11-03
展开全部
robots是什么?
robots是一个协议,是建立在网站根目录下的一个以(robots.txt)结尾的文本文件,对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面,网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取,哪些页面不可以抓取。

robots协议用来告诉搜索引擎哪些页面能被抓取,哪些页面是不能被抓取的,我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽,同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样,引导着蜘蛛程序爬取网站页面。

robots符号介绍
首先我们先来认识一下书写robots时常用到的几个字符
User-agent:写义搜索引擎类型,这里的首字母要大写U,结尾冒号:后要加一个空格键,如 User-agent:* 不带空格,User-agent: * 带空格的。
* 这里的星号是一个通配符,匹配0或多个任意字符
$ 是一个结束符
Disallow:表示不希望被访问的目录或URL
Allow:表示希望被访问的目录或URL
robots的确定写法
写法一:禁止所有搜索引擎来抓取网站任何页面
User-agent: *(此处*号也可以写成禁止某个蜘蛛抓取,例如百度的 User-agent: Baiduspider)
Disallow: /
写法二:允许所有搜索引擎抓取网站任何页面
User-agent: *
Allow: /
当然如果允许的话也可以写个空的robots.txt放网站根目录
其它写法举例:
User-agent: * 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目录下的目录
Disallow: /abc/*.html 表示禁止抓取此目录下所有以 .html为后缀的URL包含子目录
Disallow: /*?*禁止抓取所有带?问号的URL
Disallow: /*jpg$ 禁止所有以.jpg结尾格式的图片
Disallow: /ab 禁止抓取所有以ab 开头的文件
Disallow: /ab/a.html 禁止抓取ab文件夹下面的a.html 文件
Allow: /ABC/ 表示允许抓取abc目录下的目录

百度robots的写法

淘宝robots的写法

最后附上我自己网站robots的写法

好了就先举例这些,最后让提醒各位站长,慎重写robots协议,确保网站上线之前解决所有问题后,建立robots.txt文本到根目录。
85、Mr宋 94-80 作业
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
网易云信
2023-12-06 广告
UIkit是一套轻量级、模块化且易于使用的开源UI组件库,由YOOtheme团队开发。它提供了丰富的界面元素,包括按钮、表单、表格、对话框、滑块、下拉菜单、选项卡等等,适用于各种类型的网站和应用程序。UIkit还支持响应式设计,可以根据不同... 点击进入详情页
本回答由网易云信提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式