搜索引擎爬行过程简介

 我来答
我飘博7038
推荐于2016-05-27 · TA获得超过250个赞
知道答主
回答量:130
采纳率:40%
帮助的人:68.4万
展开全部
1、搜索引擎程序是通过网页之间的链接,不分昼夜的爬行来获取信息,收录标准主要由URL的权重、网站规模大小等因素决定;

2、搜索引擎进入服务器时,第一时间查看robots.txt(控制搜索引擎收录的标准)文件,如果robots.txt文件不存在,则返回404错误代码,但依然会继续爬行,如果定义了某些规则,则遵守索引。

3、建议必须有一个robot .txt文件。

搜索引擎抓取数据的方式

1、垂直抓取策略:指搜索引擎顺着一条链接爬行,直到设定的任务完成。

思路如下:垂直抓取策略—A链接—A网页链接—A网页链接的链接 ,一直垂直抓取到最底。

2、平行抓取策略:指先把网页山的链接全部抓取一次,然后接着从每条链接牌型。

总结:在实际应用中,这两种策略会同时发生,抓取的深度和广度取决于页面的权重、结构和网站规模大小以及新鲜内容数量和频率,当然这里面包含了很多的seo的策略。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式