全文搜索引擎一般采用什么原理来采集信息
1个回答
展开全部
全文搜索引擎一般采用搜索器、索引器、检索器和用户接口兄差等四个部分原理来采集信息
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避哗尘让免死连接和无效连接。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关;内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。
3.检索器
检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
4.用户接口
用户接口的作用是输入用户查询、显乱局示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询