怎么查看蜘蛛抓取情况

 我来答
cinty120534
2014-02-25 · TA获得超过8458个赞
知道小有建树答主
回答量:947
采纳率:37%
帮助的人:478万
展开全部

百度用于抓取网页的程序叫做Baiduspider - 百度蜘蛛,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的HTTP状态码。

  • 查看日志的方式:

过FTP,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。


  • 日志内容如下:

61.135.168.22 - - [11/Jan/2009:04:02:45 +0800] "GET /bbs/thread-7303-1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"

  • 分析:

/bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
200 代表成功抓取。
8450 代表抓取了8450个字节。
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。


  • 让蜘蛛经常光临

文章需要经常更新
蜘蛛就和一个人一样,想要吸引它,必须要有最新鲜的内容。如果都是一些老旧的内容,谁还会还看呢?每天或者数天一篇新的原创文章能够很好地勾引蜘蛛,同时也能够让更多的访客来你的网站上留下足迹。

页面简洁,保证打开速度
一个干净、简洁的页面能够比一个满是广告、无用信息的页面更页面更能够吸引用户,这对于蜘蛛也是。越少的需要抓取的内容,越快的打开速度,能够保证蜘蛛的高效率抓取,蜘蛛来访的频率也会越高。

内部链接结构良好,无死链和大量重复链
蜘蛛的爬行除了抓取页面,还通过页面上的链接进行“行走”。如果正好步入了一个死链,正如同步入深渊一般,蜘蛛可能需要一段时间之后才能继续抓取。同样的,如果有大量的重复链接,一直爬到这个页面上去,蜘蛛就会认为这个页面没有太大的意义,甚至会停止爬行。

为蜘蛛指路——建设网站地图
网站地图就好比是一个指向标,唯有清晰明了的指向标才能指引蜘蛛的去向。方便快捷的道路也会勾引来更多的蜘蛛。

每个页面都有完整的meta标签
拥有完整的meta标签可以更快地告诉蜘蛛这个页面里有什么,提高蜘蛛的抓取效率。这主要包括keywords(关键词)和description(描述),如果想让meta更完美,可以加上generator(作者)、robots(蜘蛛)、copyright(版权)等等。

确保服务器能够正常运作,避免宕机
在建网站之前,就要考虑好选择一个稳定的服务器,宁可多花点钱,也不要贪小便宜。稳定的运作能够使蜘蛛更好地进行抓取并不中断,还能容纳下更多勾引来的蜘蛛。

确保服务器返回信息正常
千万不要限制服务器返回信息,这对于蜘蛛来说很重要。一旦无法获取到正确的返回信息,蜘蛛将会迷失方向。

监测蜘蛛的爬行
可以利用日志知道蜘蛛正在抓取哪些页面,知己知彼,方能根据蜘蛛的喜好对页面进行调整,以勾引来更多的蜘蛛。

利用Google管理员工具查看爬行速度
可以利用Google专门为站长提供的管理员工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。

增加网站的外链
这一条和第三点相类似,因为蜘蛛的通过链接爬行。别的网站上也有蜘蛛,就可以想办法将蜘蛛勾引过来,这办法就是在网站上发外链。

杭州一知智能科技有限公司
2022-03-17 广告
电话机器人主要就是用来模拟人工通话的一组程序,一般由,CRM系统,语义识别,转换文字,话术体系,这是软的部分,再加上底层软交换和通信模块一起,合并起来就是一套完整的电话机器人系统。电话机器人可以代替真人进行电话工作的,像是电话营销、售后回访... 点击进入详情页
本回答由杭州一知智能科技有限公司提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式