如何理解Lucene的Index索引文档模型

 我来答

2个回答

匿名用户
2017-07-31

展开全部

lucene主要有两种文档模型：document和field，一个document可能包含若干个field。
每一个field有不同的策略：
1.被索引 or not，将该字段（field）经过分析（analyise）后，加入索引中，并不是原文。
2.如果被索引，可选择是否保存“term vector”(向量)，用于相似检索。
3.可选择是否存储(store)，将原文直接拷贝，不做索引，用于检索后的取出。
lucene中的文档模型类似于数据库，但是又不完全相同，体现在如下几方面：
1.无规范格式，即无需固定的schema，无列等预先设计，同一个索引中加入的document可包含不同的field。
2.非正规化，lucene中的文档模型是一个平面化的结构，没有递归定义，自然连接等等复杂的结构。

已赞过 已踩过<

评论收起

光点科技
2023-08-15 广告

通常情况下，我们会按照结构模型把系统产生的数据分为三种类型：结构化数据、半结构化数据和非结构化数据。结构化数据，即行数据，是存储在数据库里，可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据，它们可以某种标准格式存在于文件... 点击进入详情页

本回答由光点科技提供

lu...m@sohu.com
2017-07-31 · TA获得超过243个赞

知道小有建树答主

回答量：237

采纳率：75%

帮助的人：33.6万

我也去答题访问个人页

关注

展开全部

每读一行txt文档的数据，都 new 一个新的document ，然后调用writer add进去

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何理解Lucene的Index索引文档模型

其他类似问题

为你推荐：