如何写一个合理的robots.txt文件

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

天添美术cD
推荐于2016-11-26 · TA获得超过1169个赞

知道小有建树答主

回答量：371

采纳率：0%

帮助的人：109万

我也去答题访问个人页

关注

展开全部

robots.txt文件的写法
User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符
Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明，而不要写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含义，代表“any robot”，所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊参数：
允许 Googlebot：
如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页，可以使用下列语法：
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟随指向它自己的行，而不是指向所有漫游器的行。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何写一个合理的robots.txt文件

其他类似问题

为你推荐：