百度蜘蛛抓取原理

 我来答
飛雪夜狼
推荐于2018-02-22 · TA获得超过2851个赞
知道小有建树答主
回答量:555
采纳率:0%
帮助的人:280万
展开全部
网络蜘蛛即Web Spider,是一个比喻得很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。
深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。
百度网友321dc41652
2013-04-12 · TA获得超过2326个赞
知道大有可为答主
回答量:605
采纳率:0%
帮助的人:929万
展开全部
如果你创造一个新关键词,比如创造一个长尾关键词,但是必须是唯一性的,这样,百度蜘蛛可能就会在当天爬行你的UPL,然后暂存到数据库中,这是最快的,最慢基本半月爬一次吧,如果你天天发软文,或者多谢链接,反向链接,这样会提高你网站的权重,权重高来的次数也会勤,或者更新你的网站关键词,他会来的很勤的,我的站基本一天爬好几次 满意就给分吧,一般每周四会有更新,蜘蛛优先遍历静态网站,由于动态网站里能够存在死循环,这样蜘蛛进去就出不来了,不过普通蜘蛛查找的进程会先检测网站的安全性,发现这些毁灭性的举措,就会避开。我想这点值得咱们考虑一下在树立动态网站的进程中,必定要谨慎本人的顺序代码,以免形成网站缝隙,最终没有蜘蛛敢进去
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
great佯装埋倦
推荐于2016-10-08 · 知道合伙人数码行家
great佯装埋倦
知道合伙人数码行家
采纳数:3258 获赞数:24606
目前就读于重庆邮电大学移动学院,电子信息工程系。

向TA提问 私信TA
展开全部
  百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
  一、百度蜘蛛的运行原理。
  (1)通过百度蜘蛛下载回来的网页放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目 前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目 前百度收录困难的原因,也是很多站点今天给k了明天又放出来的原因。
  (2)深度优先和权重优先,百度蜘蛛抓页面的时候从起始站点(即种子站点指的是一些门户站点)是广度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指反向连接较多的页面的优先抓取,这也是调度的一种策略,一般情况下网页抓取抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。
  参考资料:http://baike.baidu.com/view/1847001.htm
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
百度网友c3340c5bf
2011-03-14 · TA获得超过215个赞
知道答主
回答量:129
采纳率:0%
帮助的人:0
展开全部
什么意思?没有详细的介绍吗?
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 2条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式