我想知道nutch是怎么进行搜索的?他的检索算法是什么,具体代码是哪部分?

我是想在nutch的基础上修改检索算法,还请熟悉的人指教... 我是想在nutch的基础上修改检索算法,还请熟悉的人指教 展开
 我来答
erliang20088
2013-06-21 · TA获得超过2496个赞
知道小有建树答主
回答量:926
采纳率:100%
帮助的人:955万
展开全部
其实这个问题很复杂,但分层之后,就显得清晰多了。
1、nutch是一个搜索产品的半成品,自己完成网络爬虫的功能,参数配置非常复杂周详,而后加上lucene的搜索功能,再加上hadoop的云平台基础。
2、要想学习他检索要先学会lucene,他的检索的核心都是lucene,包括索引、查询、排序等核心环节。
3、具体代码我好长时间不看了,找下lucene in action等这样的书看吧,学习资料超多。
更多追问追答
追问
nutch的检索算法是有全部使用lucene的吗?是不是做简化了?
追答
1、一般不会,lucene这样的顶级项目要用就用它的全部,主要是由于lucene所做的所有,都是nutch所必须提供的,包括分词、索引、查询、排序、索引及排序的优化等,都是必不可少的。
2、但是两个项目有时不同步的,即高低版本的问题,所以有时要特别注意nutch是使用的lucene的哪个版本,以免引起不必要的麻烦。
光点科技
2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件... 点击进入详情页
本回答由光点科技提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式