为什么已经拒绝蜘蛛收录,而搜索引擎还能抓取网站内容
1个回答
展开全部
这是今天一位尊敬的无忧主机用户的提问,对于这个问题,确实比较难回答,无忧主机( 51php.com)售后工程师们相互讨论下下,根据我们自己的维护经验浅浅的说下搜索引擎收录的问题。要先说明白这个问题,首先我们先了解下搜索引擎爬虫(蜘蛛)的工作原理:搜索引擎是使用spider(蜘蛛)程序抓起用户网页的内容,在搜索引擎蜘蛛访问网站时会先查看网站是否有robots.txt文件,如果有蜘蛛程序会先去访问robots.txt文件读取文件的内容,这个文件中说明网站那些内容是希望被抓取的或拒绝抓取的。蜘蛛程序查看robots.txt协议后会知道它应该做那些工作,是执行拒绝还是抓取动作。现在我们回到文章标题的话题来,小编发现搜索引擎有时也会在搜索结果中显示已经拒绝收录的php虚拟主机页面或者显示网页快照,这是什么呢?原因有很多我就举几个最常见的原因:1、用户设置 robots.txt文件时可能出错或者并不是放在网站的根目录下,这样搜索引擎就不会收到您拒绝收录的正确信息;2、搜索引擎收录的网页并不是通过直接访问网站所得,可能是通过外链对网站拒绝页面进行收录;3、可能在robots.txt文件建立之前,网站已经被搜索引擎收录了,搜索引擎没有及时更新导致spider程序不准守robots协议,这个原因只有等搜索引擎下次更新收录才有办法解决在上述情况发生时我们要防止所有搜索引擎显示您网站的快照,可以将这段代码加入到网页的头部代码部分:本贴由日本留学 发布,我们提供日本留学服务。转发请注明地址
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询