信息检索按其检索手段划分

 我来答
柒叶47
2023-04-30 · TA获得超过330个赞
知道大有可为答主
回答量:9954
采纳率:100%
帮助的人:79.3万
展开全部

信息检索按存储载体和检索手段方式划分,可分为:手工检索、机械检索、计算机检索三种。

检索需求:满足用户在海量信息中迅速筛选出自己感兴趣的内容。

检索外部流程:用户检索意图 → 输入的内容(关键词/图片/语音/二维码等)→ 搜索结果(屏蔽部分结果)→ 搜索结果展现(默认排序和选择排序)。

检索内部流程:用户输入query → query分析 → 索引&词库 → 内容筛选 → 结果召回→ 结果排序及展示。

Query分析主要是对用户输入的query进行信息的转译过程,将用户输入的query进行分词处理。各个搜索平台都有自己的分词模型,CRF模型是一种序列标注的机器学习方法,其关键点在于如何有足够且标注准确的训练语料库。切分后的关键词进一步用子项检索策略处理,归一化无效词,如:“的”。Query分析里面包含了很多子项策略,包括纠错,相关搜索词,query改写/变换,query类别识别,意图识别,同义词替换,Term词项构造(文本词条化,停用词过滤,词条归一化,词干提取,词形还原)等等。

在实际项目中,因为召回率和准确率相互影响,所以我们尽可能在保证一定召回率的情况下提升准确率(但如果是反作弊系统则是在保证准确率的情况下,保证召回率)。因此,我们通过统计出一组不同阀值下的准确率和召回率的关系,称之为P-R曲线。计算一个F值作为准确率和召回率的综合表征,F = 2*P*R / (P + R) 。在实际应用中也会对参数进行调整做出适应使用场景的灵活变化。

排序的合理性评估则是需要根据用户的使用场景确定是要根据热度排序还是距离排序等进行评估。评估时需制定评估标准,做到评估标准相互独立,完全穷尽的原则,便于他人理解与工作复查(检索结果排序常用GSB方式评估,需要注意Bad中是否有极端bad的结果)。

深圳市唯德科创信息有限公司_
2023-08-27 广告
专利管理系统是用于管理专利申请、审批、维护和保护全过程的信息系统。它可以帮助企业和个人有效地管理专利,并提高专利申请和审批的效率。该系统包括专利申请管理、专利审批管理、专利维护和保护管理等功能。专利申请管理可以帮助用户方便地提交专利申请,并... 点击进入详情页
本回答由深圳市唯德科创信息有限公司_提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式