我想知道nutch是怎么进行搜索的?他的检索算法是什么,具体代码是哪部分?
1个回答
展开全部
其实这个问题很复杂,但分层之后,就显得清晰多了。
1、nutch是一个搜索产品的半成品,自己完成网络爬虫的功能,参数配置非常复杂周详,而后加上lucene的搜索功能,再加上hadoop的云平台基础。
2、要想学习他检索要先学会lucene,他的检索的核心都是lucene,包括索引、查询、排序等核心环节。
3、具体代码我好长时间不看了,找下lucene in action等这样的书看吧,学习资料超多。
1、nutch是一个搜索产品的半成品,自己完成网络爬虫的功能,参数配置非常复杂周详,而后加上lucene的搜索功能,再加上hadoop的云平台基础。
2、要想学习他检索要先学会lucene,他的检索的核心都是lucene,包括索引、查询、排序等核心环节。
3、具体代码我好长时间不看了,找下lucene in action等这样的书看吧,学习资料超多。
更多追问追答
追问
nutch的检索算法是有全部使用lucene的吗?是不是做简化了?
追答
1、一般不会,lucene这样的顶级项目要用就用它的全部,主要是由于lucene所做的所有,都是nutch所必须提供的,包括分词、索引、查询、排序、索引及排序的优化等,都是必不可少的。
2、但是两个项目有时不同步的,即高低版本的问题,所以有时要特别注意nutch是使用的lucene的哪个版本,以免引起不必要的麻烦。
光点科技
2023-08-15 广告
2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件...
点击进入详情页
本回答由光点科技提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询