2个回答
展开全部
就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术·
主要该系统有TRS系统·天宇系统·等
与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。
搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。
目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程:
索引(Indexing)
从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。
将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。
搜索(Search)
用户执行搜索(全文检索)编写查询关键字。
从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。
展示搜索的结果。
主要该系统有TRS系统·天宇系统·等
与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索
随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。
经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。
首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。
搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。
一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:
分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;
全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;
有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;
必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。
此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。
目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程:
索引(Indexing)
从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。
将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。
搜索(Search)
用户执行搜索(全文检索)编写查询关键字。
从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。
展示搜索的结果。
北京金瑞博
2024-08-15 广告
2024-08-15 广告
欧盟PV(药物警戒)文献检索服务是我们公司的一项重要业务。我们提供专业的文献检索服务,覆盖欧盟地区所有相关医药数据库,确保获取全面、准确的药物安全信息。通过科学的检索策略和严格的质量控制,我们帮助客户快速、高效地识别、评估药物安全风险,为药...
点击进入详情页
本回答由北京金瑞博提供
展开全部
1. 布尔逻辑检索
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。
2. 截词检索
截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索
3. 位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。
4. 字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。
5. 加权检索
加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。
6. 聚类检索
聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。
2. 截词检索
截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索
3. 位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。
4. 字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。
5. 加权检索
加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。
6. 聚类检索
聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询