java lucene 如何返回一篇文本中关键词的词数?
1个回答
展开全部
首先。。你所说的关键词是自己定义的吗。。
如果没有特定的关键词词库是无法统计的。。
如果有。。你可以使用paoding庖丁分词自定义词库。。把别的词库都删了就放自己定义的关键词词库。。然后使用lucene结合paoding的分析器为文本创建索引。。然后统计索引字段为文字内容的Field的词频就行了。。
如果没有特定的关键词词库是无法统计的。。
如果有。。你可以使用paoding庖丁分词自定义词库。。把别的词库都删了就放自己定义的关键词词库。。然后使用lucene结合paoding的分析器为文本创建索引。。然后统计索引字段为文字内容的Field的词频就行了。。
追问
是我自己定义的词啊,paoding是汉语的吧?如果是少数民族语言或者英语呢?
追答
paoding虽然属于中文分词器。。但别的语言应该也是可以使用的。。在建索引的时候指定分词器就行了。。使用paoding我只是觉得它对自定义词库的扩展比较方便罢了。。
当然。。你也可以自己写个自定义的分词器。。并不难。。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询