如何理解Lucene的Index索引文档模型
展开全部
Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field。
每一个Field有不同的策略:
1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文 。
2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。
3.可选择是否存储(store),将原文直接拷贝 ,不做索引,用于检索后的取出。
Lucene中的文档模型类似于数据库,但是又不完全相同,体现在如下几方面:
1.无规范格式,即无需固定的Schema,无列等预先设计,同一个索引中加入的Document可包含不同的Field 。
2.非正规化,Lucene中的文档模型是一个平面化 的结构,没有递归定义,自然连接等等复杂的结构。
每一个Field有不同的策略:
1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文 。
2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。
3.可选择是否存储(store),将原文直接拷贝 ,不做索引,用于检索后的取出。
Lucene中的文档模型类似于数据库,但是又不完全相同,体现在如下几方面:
1.无规范格式,即无需固定的Schema,无列等预先设计,同一个索引中加入的Document可包含不同的Field 。
2.非正规化,Lucene中的文档模型是一个平面化 的结构,没有递归定义,自然连接等等复杂的结构。
迈杰
2024-11-30 广告
2024-11-30 广告
RNA-seq数据分析是转录组研究的核心,包括数据预处理、序列比对、定量分析、差异表达分析、功能注释和可视化等步骤。数据预处理主要是质量控制和去除低质量序列。序列比对使用HISAT2、STAR等工具将reads比对到参考基因组。定量分析评估...
点击进入详情页
本回答由迈杰提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询