搜索引擎的工作过程分为哪几个阶段

 我来答
生活类答题小能手
高能答主

2020-03-16 · 专注生活类答题,解决生活问题
生活类答题小能手
采纳数:1645 获赞数:295548

向TA提问 私信TA
展开全部

搜索引擎的整个工作过程视为三个部分:蜘蛛在互联网上爬行和抓取网页信息,并存入原始网页数据库;对原始网页数据库中的信息进行提取和组织,并建立索引库;根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,并将查询结果返回给用户。

1、网页抓取

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。

2、预处理,建立索引

为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)。

3、查询服务

在搜索引擎界面输入关键词,点击“搜索”按钮之后,搜索引擎程序开始对搜索词进行以下处理:分词处理、根据情况对整合搜索是否需要启动进行判断、找出错别字和拼写中出现的错误、把停止词去掉。接着搜索引擎程序便把包含搜索词的相关网页从索引数据库中找出,而且对网页进行排序,最后按照一定格式返回到“搜索”页面。



扩展资料

在信息抓取阶段搜索引擎掌握的信息往往是局部的,因而为搜索引擎设计一个好的抓取优先级策略并不是一件容易的事情,这里说的是一个深度抓取的优先策略。深度优先抓取它是以抓取到连接结构关系中的所有内容为主要目的的,具体实现方式是沿着树形的深度遍历树的节点,尽可能深的搜索树的分支,如果发现目标,则算法中止。

深度优先抓取过程中,抓取程序从起始页开始,一个链接一个链接跟踪下去,处理完这条线路最低端之后再转入下一个起始页,继续跟踪链接。

参考资料来源:百度百科-搜索引擎

参考资料来源:百度百科-搜索引擎技术

龙石数据
2024-10-07 广告
数据中台主要包含以下功能:1)数据模型管理:可以将数据仓库划分为贴源层、治理层、应用层和共享层,并在每个层设计概念模型、逻辑模型和物理模型。2)数据集成管理:能接入各类数据源,支持拖拉拽式操作和可视化测试,数据性能支持每分钟300万以上,同... 点击进入详情页
本回答由龙石数据提供
supers鹏
2015-12-23 · TA获得超过204个赞
知道答主
回答量:178
采纳率:0%
帮助的人:63.1万
展开全部
第一、爬行和抓取网页。
搜索引擎蜘蛛通过连接,访问到网页,抓取网页HTML代码,发送到数据库储存起来,等待下一步程序。常见的搜索引擎蜘蛛有:百度蜘蛛(Baiduspider )谷歌蜘蛛(Googlebot),soso蜘蛛(Sosospider ),雅虎蜘蛛(Yahoo!Slurp),微软Bing蜘蛛(msnbot)搜狗蜘蛛(Sogou web robot )。蜘蛛根据链接爬行网站有两种策略:一是深度优先,一是广度优先。
第二、分析网页。
分析网页就是我们通常所说的预处理。这步程序蜘蛛会把抓取回来的HTML代码,进行文字提取、去停止词、消噪音、去重,然后对这些文字进行分词、索引等处理,以备排名程序使用。这些过程都是非常复杂的,我们只需要了解它们是怎么分词,怎么索引就行了。如果有兴趣进一步研究的话,可以在网上找一些搜索引擎原理的资料或者购买介绍搜索引擎原理的书看。
第三、排名。
排名是搜索引擎程序的最后一步程序了。当搜索引擎把网页进行一系列的分析过后,就把数据传送到排名程序,当用户搜索某个关键词时候,排名程序就会调用经过分析网页,检索处理的数据库数据,对关键词进行匹配、计算相关性,然后生成排名页面反馈给用户。当然影响排名的因素还有网站的结构优化,内链优化,外链质量和数量等,包括地域性的因素。
以上三步是搜索引擎工作的基本原理,每一步程序都非常的复杂,我们只要大致了解一下,不需要进行深入的研究,最终影响排名的因素有很多很多,我们无法全部知道和掌握,只有在不断的实践过程中,主意细节,记录和分析数据,才能更了解搜索引擎,才能进一步的提高自己网站的排名,获得流量和知名度。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
光哇啦
2015-12-23
知道答主
回答量:6
采纳率:0%
帮助的人:2.4万
展开全部
1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
向阳里的春天
2015-12-23 · TA获得超过480个赞
知道小有建树答主
回答量:178
采纳率:0%
帮助的人:160万
展开全部
1爬行和抓取
2预处理
3排名
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(2)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式