搜索引擎通常由以下模块组成:
1,抓取模块
2、过滤模块
3,包含模块
4,排序模块
百度搜索引擎工作原理—抓取模块
当搜索引擎运行时,第一个工作是转到Internet来抓取页面,而实现这项工作的模块,我们将其称为爬网模块。要学习爬网模块,我们需要了解以下几点:
1,搜索引擎爬虫:蜘蛛
为了在Internet上自动抓取数万个网页,搜索引擎必须具有完全自动化的页面抓取工具。而这个程序通常被称为“蜘蛛”(也称为“机器人”)。所以不同的搜索引擎蜘蛛,名称是不同的。百度的爬虫通常被称为百度蜘蛛。
Google的抓取工具通常称为Google Robot。
360爬虫通常被称为360 Spider。
事实上,无论你称之为蜘蛛还是机器人,你只需要知道这是指搜索引擎的爬虫。蜘蛛的任务非常简单。它是连续抓取未包含在Internet中的网页和链接,然后将捕获的网页信息和链接信息存储到其自己的网页数据库中。这些已抓取的网页将有机会显示在最终的搜索结果中。
2,如何让蜘蛛抓取我们的网站
通过上面对蜘蛛的解释,我们可以知道,如果您希望您的页面出现在搜索结果中,您必须先让蜘蛛抓取我们的网站。有三种方法可以让蜘蛛抓取我们的网站。
外部链接:我们可以链接已被搜索引擎索引的网站上的蜘蛛以吸引蜘蛛,或交换友情链接是一种常用方法。
提交链接:百度为网站管理员提供链接提交工具。使用此工具,我们只需要通过此工具将其提交给百度,然后百度将发送一个蜘蛛来抓取我们的网页。
百度搜索引擎工作原理分析 - 百度搜索引擎原理
蜘蛛自己爬行:如果您希望蜘蛛定期主动抓取自己的网站,那么您必须提供高质量的网站内容。只有蜘蛛才会发现您网站的内容质量良好,然后蜘蛛会照顾您的网站,并会定期访问您的网站,看看是否有新内容生成。如何确保您的网站能够提供卓越的内容,我们将在后面的章节中详细说明这个主题。
3.你怎么知道蜘蛛来到我们的网站
以下两种方法可用于了解蜘蛛是否已访问我们的网站。
(1)百度抓取频率工具
工具URL为:
百度搜索引擎工作原理分析 - 百度搜索引擎的工作原理
(2)服务器IIS日志
如果您的服务器启用了IIS日志记录,您还可以通过IIS日志文件查看蜘蛛的痕迹。通过IIS日志,我们可以找到百度蜘蛛抓取我们的页面。
4.影响蜘蛛爬行的因素
好的,我们知道网站想要排名。第一步是能够被蜘蛛爬行。那些因素可能会导致蜘蛛无法正常抓取我们的网页。我们应该注意以下几点:
(1)URL不能太长:百度建议URL的长度不要超过256个字节(一个英文字母(不区分大小写)占用一个字节的空间,一个汉字占用两个字节的空间)。
(2)不要在URL中包含中文:百度对中文网址的抓取效果相对较差,所以不要在网址中加入中文。
(3)服务器问题:如果你的服务器质量太差,你无法打开它,也会影响蜘蛛的爬行效果。
(4)Robots.txt屏蔽:一些SEO人员疏忽。您希望被百度抓取的路径或页面在Robots.txt文件中被阻止。这也会影响百度在我们网站上的抓取效果。
(5)避免蜘蛛难以解析的字符,例如/abc/123456 ;;;;;;;%B9&CE%EDDS$GHWF%.html这个URL蜘蛛无法理解放弃爬行。
(6)注意动态参数不太复杂。目前,百度对动态URL有很好的处理,然而,蜘蛛可能会抛弃太多参数和复杂的网址,因为它们并不重要。这一点尤其重要,所以一定要注意。
百度搜索引擎工作原理—过滤模块
由于Internet上充满了垃圾邮件页面和无内容页面,因此搜索引擎或搜索用户不需要这些页面。因此,为了防止这些垃圾邮件页面占用其宝贵的存储资源,搜索引擎会过滤蜘蛛爬行的内容。执行此操作的模块就是我们所说的过滤模块。那些因素会影响过滤模块,下面有2点:
(1)识别
由于搜索引擎蜘蛛目前最擅长分析文本和链接,因此很难识别图像和视频。因此,如果页面主要是图片和视频,则搜索引擎难以识别页面的内容。对于此类页面,搜索引擎可能会被过滤掉为垃圾网站。因此,当我们编辑网站的内容时,我们应该添加一些文本描述,以便过滤模块不容易过滤。
(2)内容质量
基于可识别内容,搜索引擎还将捕获的网页的内容与已经存储在数据库中的内容进行比较。如果搜索引擎发现页面内容的质量大部分与数据库中的内容重复,或者质量较差,则页面将被过滤掉。
百度搜索引擎工作原理—包含模块
已通过过滤模块“验证”的网页将标准化为分词和数据格式,然后存储在索引数据库程序模块中,我们将其称为包含模块。如果您的网站有幸通过包含模块,那么您有机会获得排名。
1.如何检查是否包含网页
最简单的方法是将网页的URL复制到百度搜索框中进行搜索。如果可以显示页面的搜索结果,则表示已包含URL。
百度搜索引擎工作原理分析 - 百度搜索引擎原理
2,如何查看网站的数量
有两种方式:
(1)网站命令
通过“site:domain name”命令,我们可以看到搜索引擎在某个域名下抓取了页面卷:
百度搜索引擎工作原理分析 - 百度网络磁盘搜索引擎原理
(2)百度“索引金额”查询工具
通过百度提供的“索引金额”查询工具,您还可以查看我们网站的数量。
如果我有少量的收录,我该怎么办?
这分为两种情况:
(1)新站
一般来说,新站刚刚上线,开始收集至少需要1-2个月。在早期阶段,它通常只是一个主页。没有其他办法可以解决这种情况,因为百度特别延长了新站的审查时间,以防止垃圾站泛滥。因此,如果您正在操作一个新站,那么您不需要对包含量感到紧张。只要您诚实地提供优质内容,百度将在2个月后开始包含您的内页。
(2)旧车站
即使音量开始减少,一些旧电台的参赛作品也会减少。这通常是由于网站内部页面内容质量差造成的。
此时,网站管理员应该快速调整整个网站的内容质量,并提供高质量的内容,以确保网站的排名不会改变。
百度搜索引擎工作原理—排序模块
对于存储在索引数据库中的页面,通过一系列算法获得每个页面的权重并对其进行排序的程序称为排序模块。
如果您的页面通过排序模块的计算排在关键字的顶部,那么当搜索用户搜索关键字时,您的页面可以显示在用户面前。要获得适合您网站的排名,您需要执行以下2点:
1.改进基本优化
如果你想获得一个好的排名,那么你的网页必须首先进行优化,包括网站定位,网站结构,网站布局,网站内容等。这些基本优化的内容将在后面详细说明。只有这些基本部分得到完善和优化,才能通过。
2,综合数据好
在基本优化的基础上,如果您的百度统计背景数据良好,并且用户的忠诚度和场外促销效果显着,则会在传递线上添加点数。只要您的奖励积分超过所有竞争对手,您的网站就可以放在所有对手面前。
哪些因素影响了排序?
影响排序的因素有很多,排序是由各种算法综合打分后衡量的一个结果,经常听说XXX认识XX搜索引擎算法工程师,事实上这些算法不会交给一个人,一个算法工程师认识和了解的算法也是有限的,也不足以操纵排名,因为影响的因素确实太多了,在这里我列出几个公认且较为权威的影响因素:
1、网站与搜索关键词的相关性
网站的主题和关键词匹配是非常重要的,网站主题和内容保持一致性也是这个道理,而且如果站点跨领域去发布导流内容,会被搜索识别,被判罚的例子也不少。而且,如果用户搜索的关键词与你网站是相关的,用户在网站内的转化点击也会高。
2、内容和搜索关键词相关性
目前百度及其他搜索引擎都越来越重视了内容生态的维护,让更多的原创作者获得更多收益,内容主题跟搜索关键词的相关性越高,获得排序有待的机会也越大。简单说如果网站内容足够丰富,能满足搜索用户的所有需求,那么一般这样的内容,展现和点击一定不会差到哪里去。
3、网站评价
网站评价也可以说是网站的权威性,站长圈说的权重,是根据网站的规模、历史表现、站点关系网等多个维度进行的一个综合评定,对于我们来说一时半会是肯定无法提高网站评价的,只能够努力做好内容做好用户体验,等度娘或其他搜索引擎给予加权。
4、时效性
类似于新闻等具备时效性的内容,越快发现热点,且内容能够被搜索引擎发现,那么在流量上相信你也可以获得到更多。
5、页面体验
页面体验实际上是近期提得较多也是很重要的一点,百度等其他搜索引擎也陆续出了很多的算法来净化网络环境,在pc站点上需要考虑整体的页面体验,移动端除了体验上的问题外,还需要考虑访问速度,这部分百度推出了闪电算法,对移动端访问速度差的站点有影响。
6、网站内外链
随着搜索引擎的更加聪明,内外链上面对排序的影响逐步在削弱,当然了必要的和网站相关的内链还是少不了。