搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

西气解6359
2013-11-28 · TA获得超过163个赞

知道答主

回答量：105

采纳率：0%

帮助的人：116万

我也去答题访问个人页

关注

展开全部

当然我们也不是百度的也不是Google的，所以只能说探秘，而不是揭秘。本文内容比较简单，只是给不知道的朋友一个分享的途径，高手和牛人请绕行吧。　　传统意义上，我们感觉搜索引擎蜘蛛(spider)爬行，应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接，顺着这个链接爬行到一个页面，然后再顺着这个页面里面的链接继续爬这个类似于蜘蛛网，也类似于一棵大树。这个理论虽然正确，但是不准确。　　搜索引擎内部是有一个网址索引库的，所以搜索引擎蜘蛛是从搜索引擎的服务器出发，顺着搜索引擎已有的网址爬行一个网页，并将网页内容抓取回来。页面采集回来之后，搜索引擎会对其进行分析，将内容和链接分开，内容暂时先不说。分析出来链接之后，搜索引擎并不会马上去派蜘蛛进行抓取，而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算，最后放入网址索引库。进入了网址索引库之后，才会有蜘蛛去抓取。　　也就是如果出现了某个网页的外链，并不一定会立刻有蜘蛛去抓取这个页面，而是会有一个分析计算的过程。即便是这个外链在蜘蛛抓取之后被删除了，这个链接也有可能已经被搜索引擎记录，以后还有抓取的可能。

本回答由提问者推荐

已赞过 已踩过<

评论收起

北京伟景智能科技
2024-11-19 广告

做智能抓取可以找北京伟景智能科技有限公司的智能专用抓取3D相机智光眼，智光眼与3D视觉智能抓取引导应用平台 —— 飞虎强强联合，能够轻松应对各种复杂的抓取任务，并在不同的应用场景中展现出卓越的性能。... 点击进入详情页

本回答由北京伟景智能科技提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接

其他类似问题

为你推荐：