百度蜘蛛抓取原理

 我来答

4个回答

#热议# 应届生在签三方时要注意什么？

飛雪夜狼
推荐于2018-02-22 · TA获得超过2851个赞

知道小有建树答主

回答量：555

采纳率：0%

帮助的人：280万

我也去答题访问个人页

关注

展开全部

网络蜘蛛即Web Spider，是一个比喻得很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先
广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。
深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。

已赞过 已踩过<

评论收起

百度网友321dc41652
2013-04-12 · TA获得超过2326个赞

知道大有可为答主

回答量：605

采纳率：0%

帮助的人：929万

我也去答题访问个人页

关注

展开全部

如果你创造一个新关键词，比如创造一个长尾关键词，但是必须是唯一性的，这样，百度蜘蛛可能就会在当天爬行你的UPL，然后暂存到数据库中，这是最快的，最慢基本半月爬一次吧，如果你天天发软文，或者多谢链接，反向链接，这样会提高你网站的权重，权重高来的次数也会勤，或者更新你的网站关键词，他会来的很勤的，我的站基本一天爬好几次满意就给分吧，一般每周四会有更新，蜘蛛优先遍历静态网站，由于动态网站里能够存在死循环，这样蜘蛛进去就出不来了，不过普通蜘蛛查找的进程会先检测网站的安全性，发现这些毁灭性的举措，就会避开。我想这点值得咱们考虑一下在树立动态网站的进程中，必定要谨慎本人的顺序代码，以免形成网站缝隙，最终没有蜘蛛敢进去

已赞过 已踩过<

评论收起

great佯装埋倦
推荐于2016-10-08 · 知道合伙人数码行家

great佯装埋倦
知道合伙人数码行家

采纳数：3258 获赞数：24606

目前就读于重庆邮电大学移动学院，电子信息工程系。

向TA提问私信TA

关注

展开全部

　　百度蜘蛛，是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容，然后分门别类建立索引数据库，使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
　　一、百度蜘蛛的运行原理。
　　（1）通过百度蜘蛛下载回来的网页放到补充数据区，通过各种程序计算过后才放到检索区，才会形成稳定的排名，所以说只要下载回来的东西都可以通过指令找到，补充数据是不稳定的，有可能在各种计算的过程中给k掉，检索区的数据排名是相对比较稳定的，百度目前是缓存机制和补充数据相结合的，正在向补充数据转变，这也是目前百度收录困难的原因，也是很多站点今天给k了明天又放出来的原因。
　　（2）深度优先和权重优先，百度蜘蛛抓页面的时候从起始站点（即种子站点指的是一些门户站点）是广度优先抓取是为了抓取更多的网址，深度优先抓取的目的是为了抓取高质量的网页，这个策略是由调度来计算和分配的，百度蜘蛛只负责抓取，权重优先是指反向连接较多的页面的优先抓取，这也是调度的一种策略，一般情况下网页抓取抓到40%是正常范围，60%算很好，100%是不可能的，当然抓取的越多越好。
　　参考资料：http://baike.baidu.com/view/1847001.htm

已赞过 已踩过<

评论收起

百度网友c3340c5bf
2011-03-14 · TA获得超过215个赞

知道答主

回答量：129

采纳率：0%

帮助的人：0

我也去答题访问个人页

关注

展开全部

什么意思？没有详细的介绍吗？

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

2条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

百度蜘蛛抓取原理

其他类似问题

为你推荐：