搜索引擎收录定义

请问高手搜索引擎收录应该用怎么样的语言来概括他的意思?很急!!!... 请问高手搜索引擎收录应该用怎么样的语言来概括他的意思?很急!!! 展开
 我来答
刘华钧
2008-09-26 · TA获得超过679个赞
知道小有建树答主
回答量:358
采纳率:0%
帮助的人:99.3万
展开全部
搜索引擎是一种能够通过Internet 接受用户的查询指令,并向用户提供符合其查询要
求的信息资源网址的系统。它是一些在Web 中主动搜索信息(网页上的单词和特定的描
述内容)并将其自动索引的Web 网站,其索引内容存储在可供检索的大型数据库中,建
立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网
页的前二百至五百个单词。当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用
户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软
件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet 上具有检索功能的网
页。
搜索引擎也是目前Internet 对信息资源进行组织的主要方式 。搜索引擎由网上机器人
(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索
引 。由于不需要人们的介入 ,速度得以大大的提高。其覆盖面和及时性也得以大大的提
高 。Spider 或Robot 是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文
件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关
键词和RUL、文件的大小、语种以及词出现的频率。它的运行方式为 :从一个或一组
RUL 开始,访问该RUL 所指HTML 文件中所有的RUL 锚链,然后再以这些新的RUL 为
起始点,继续进行本地索引,直到再也没有满足条件的新的RUL 为止。在记录新的RUL
时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的
速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML 格式文件取到本
地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分 (如
关键字和一些指定词等 )存储到数据库中,形成本地查询数据库,以后再查时就不必到远
地去重新获取HTML 格式文件了 。搜索引擎的数据检索方式主要是关键字的匹配方式:
如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等 。能为用户提供全文索引、
约束性检索、基于布尔关系的查询方式 ,并对查询结果根据某种算法和规则评分和排
序。引擎系统虽然能在WWW 信息资源范围内自动发现新的信息 ,对其所覆盖的资料进
行自动更新 ,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理 ,自动
建立索引,并通过检索接口为用户提供信息查询服务 ,根据用户的请求返回相应的结
果 ,但是由于系统需将HTML 文件传送至本地然后分析 ,大量占用昂贵的网络带宽和
CPU 资源,资源消耗过大,增加被搜索结点的负担 ;又由于链路效率太低,对一些连接
代价很大的获得索引 ,难免有不能及时加入的新WWW 地址。此外,由于各搜索引擎标
引方式没有统一的规范,有的对网页全文进行索引 ,有的仅标引网页的标题、RUL、关
键段落的前几个单词或文本的前 100 个词 ,生成关键词的技术也不一样 ,有的支持
MetaTags,接受网页制作者自定义关键词和摘要 ,有的则不支持MetaTags,仅仅利用网
页的前几行字作为摘要 。此外,搜索引擎大多采用自然语言标引和检索 ,没有受控词
表,同义词和近义词得不到控制 ,词间的关系得不到揭示 。因此 ,搜索引擎的信息组织
与标引缺乏控制 ,信息查询的命中率、准确率、查全率差强人意 ,往往是输入一个检索
式 ,得到一大堆网页地址 ,但其中大部分是冗余信息。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式