如何理解Lucene的Index索引文档模型

 我来答
匿名用户
2017-07-31
展开全部
lucene主要有两种文档模型:document和field,一个document可能包含若干个field。
每一个field有不同的策略:
1.被索引 or not,将该字段(field)经过分析(analyise)后,加入索引中,并不是原文。
2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。
3.可选择是否存储(store),将原文直接拷贝,不做索引,用于检索后的取出。
lucene中的文档模型类似于数据库,但是又不完全相同,体现在如下几方面:
1.无规范格式,即无需固定的schema,无列等预先设计,同一个索引中加入的document可包含不同的field。
2.非正规化,lucene中的文档模型是一个平面化的结构,没有递归定义,自然连接等等复杂的结构。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
光点科技
2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件... 点击进入详情页
本回答由光点科技提供
lu...m@sohu.com
2017-07-31 · TA获得超过243个赞
知道小有建树答主
回答量:237
采纳率:75%
帮助的人:33.6万
展开全部
每读一行txt文档的数据,都 new 一个新的document ,然后调用writer add进去
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式