搜索引擎的工作过程分为哪几个阶段
搜索引擎的整个工作过程视为三个部分:蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;对原始网页数据库中的信息进行提取和组织,并建立索引库;根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。
1、网页抓取
Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。
2、预处理,建立索引
为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。
3、查询服务
在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。
扩展资料
在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。
深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。
参考资料来源:百度百科-搜索引擎
参考资料来源:百度百科-搜索引擎技术
2024-10-07 广告
搜索引擎蜘蛛通过连接,访问到网页,抓取网页HTML代码,发送到数据库储存起来,等待下一步程序。常见的搜索引擎蜘蛛有:百度蜘蛛(Baiduspider )谷歌蜘蛛(Googlebot),soso蜘蛛(Sosospider ),雅虎蜘蛛(Yahoo!Slurp),微软Bing蜘蛛(msnbot)搜狗蜘蛛(Sogou web robot )。蜘蛛根据链接爬行网站有两种策略:一是深度优先,一是广度优先。
第二、分析网页。
分析网页就是我们通常所说的预处理。这步程序蜘蛛会把抓取回来的HTML代码,进行文字提取、去停止词、消噪音、去重,然后对这些文字进行分词、索引等处理,以备排名程序使用。这些过程都是非常复杂的,我们只需要了解它们是怎么分词,怎么索引就行了。如果有兴趣进一步研究的话,可以在网上找一些搜索引擎原理的资料或者购买介绍搜索引擎原理的书看。
第三、排名。
排名是搜索引擎程序的最后一步程序了。当搜索引擎把网页进行一系列的分析过后,就把数据传送到排名程序,当用户搜索某个关键词时候,排名程序就会调用经过分析网页,检索处理的数据库数据,对关键词进行匹配、计算相关性,然后生成排名页面反馈给用户。当然影响排名的因素还有网站的结构优化,内链优化,外链质量和数量等,包括地域性的因素。
以上三步是搜索引擎工作的基本原理,每一步程序都非常的复杂,我们只要大致了解一下,不需要进行深入的研究,最终影响排名的因素有很多很多,我们无法全部知道和掌握,只有在不断的实践过程中,主意细节,记录和分析数据,才能更了解搜索引擎,才能进一步的提高自己网站的排名,获得流量和知名度。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
2预处理
3排名