怎么查看蜘蛛抓取情况
百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。
查看日志的方式:
过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。
日志内容如下:
61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
分析:
/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
200 代表成功抓取。
8450 代表抓取了8450个字节。
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。
让蜘蛛经常光临
文章需要经常更新
蜘蛛就和一个人一样,想要吸引它,必须要有最新鲜的内容。如果都是一些老旧的内容,谁还会还看呢?每天或者数天一篇新的原创文章能够很好地勾引蜘蛛,同时也能够让更多的访客来你的网站上留下足迹。
页面简洁,保证打开速度
一个干净、简洁的页面能够比一个满是广告、无用信息的页面更页面更能够吸引用户,这对于蜘蛛也是。越少的需要抓取的内容,越快的打开速度,能够保证蜘蛛的高效率抓取,蜘蛛来访的频率也会越高。
内部链接结构良好,无死链和大量重复链
蜘蛛的爬行除了抓取页面,还通过页面上的链接进行“行走”。如果正好步入了一个死链,正如同步入深渊一般,蜘蛛可能需要一段时间之后才能继续抓取。同样的,如果有大量的重复链接,一直爬到这个页面上去,蜘蛛就会认为这个页面没有太大的意义,甚至会停止爬行。
为蜘蛛指路——建设网站地图
网站地图就好比是一个指向标,唯有清晰明了的指向标才能指引蜘蛛的去向。方便快捷的道路也会勾引来更多的蜘蛛。
每个页面都有完整的meta标签
拥有完整的meta标签可以更快地告诉蜘蛛这个页面里有什么,提高蜘蛛的抓取效率。这主要包括keywords(关键词)和description(描述),如果想让meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版权)等等。
确保服务器能够正常运作,避免宕机
在建网站之前,就要考虑好选择一个稳定的服务器,宁可多花点钱,也不要贪小便宜。稳定的运作能够使蜘蛛更好地进行抓取并不中断,还能容纳下更多勾引来的蜘蛛。
确保服务器返回信息正常
千万不要限制服务器返回信息,这对于蜘蛛来说很重要。一旦无法获取到正确的返回信息,蜘蛛将会迷失方向。
监测蜘蛛的爬行
可以利用日志知道蜘蛛正在抓取哪些页面,知己知彼,方能根据蜘蛛的喜好对页面进行调整,以勾引来更多的蜘蛛。
利用Google管理员工具查看爬行速度
可以利用Google专门为站长提供的管理员工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。
增加网站的外链
这一条和第三点相类似,因为蜘蛛的通过链接爬行。别的网站上也有蜘蛛,就可以想办法将蜘蛛勾引过来,这办法就是在网站上发外链。