Lucene+nutch搜索引擎开发的目录 内核揭秘篇

 我来答
威武且睿智的福祉626
2016-05-30 · 超过55用户采纳过TA的回答
知道答主
回答量:211
采纳率:0%
帮助的人:55.2万
展开全部

4.1 网络蜘蛛原理
4.1.1 体系结构设计
4.1.2 访问策略与算法
4.1.3 效率优化与更新
4.1.4 蜘蛛访问规范
4.1.5 开源蜘蛛简介
4.2 Nutch网络蜘蛛
4.2.1 Nutch网络蜘蛛概述
4.2.2 Nutch抓取模式分类
4.2.3 抓取测试站点建立
4.3 Nutch局域网抓取
4.3.1 本地下载准备
4.3.2 启动下载过程
4.3.3 下载过程解析
4.3.4 下载多个网站
4.4 Nutch互联网抓取
4.4.1 下载列表获取
4.4.2 下载大量网站
4.5 Nutch抓取比较
4.6 Nutch结果检测
4.6.1 网页内容检索
4.6.2 使用Readdb获取摘要
4.6.3 使用SegRead读取分段
4.6.4 Luke工具使用
4.7 Nutch配置文件解析
4.8 Heritrix网络蜘蛛
4.8.1 Heritrix概述
4.8.2 Heritrix体系结构
4.8.3 Heritrix安装与使用
4.9 小结 5.1 文档索引原理
5.1.1 索引概述
5.1.2 索引基本结构
5.1.3 倒排索引原理
5.1.4 索引分类
5.1.5 高性能索引
5.2 Lucene索引器
5.2.1 Lucene索引介绍
5.2.2 Lucene索引结构
5.2.3 多文件索引结构
5.2.4 复合索引结构
5.3 Lucene索引实例
5.3.1 索引创建代码解析
5.3.2 索引创建器(IndexWriter)
5.3.3 索引管理器(IndexReader)
5.3.4 索引修改器(IndexModifier)
5.3.5 索引分析器(Analyzer)
5.4 Lucene索引操作
5.4.1 添加文本文件索引
5.4.2 创建Lucene增量索引
5.4.3 使用索引项删除文档
5.4.4 使用编号删除文档
5.4.5 压缩文档编号
5.4.6 索引文档更新
5.5 Lucene索引高级特性
5.5.1 选择索引域类型
5.5.2 索引参数优化
5.5.3 使用磁盘索引
5.5.4 使用内存索引
5.5.5 同步与锁机制
5.6 Lucene高级应用实例
5.6.1 创建本地搜索的索引
5.6.2 索引数据库记录
5.6.3 索引优化与合并
5.7 Nutch中的Lucene索引
5.8 小结 6.1 信息查询原理
6.1.1 信息查询概述
6.1.2 查询基本流程
6.1.3 查询结果显示
6.1.4 高性能查询
6.2 Lucene查询概述
6.2.1 Lucene查询操作基础
6.2.2 Lucene查询实例入门
6.2.3 查询工具IndexSearcher类
6.2.4 查询封装Query类
6.2.5 查询分析器QueryParser类
6.2.6 查询结果集Hits类
6.3 Lucene基本查询
6.3.1 Lucene查询Query对象
6.3.2 最小项查询TermQuery
6.3.3 区间范围搜索RangeQuery
6.3.4 逻1/4组合搜索BooleanQuery
6.3.5 字串前缀搜索PrefixQuery
6.3.6 短语搜索PhraseQuery
6.3.7 模糊搜索FuzzyQuery
6.3.8 通配符搜索WildcardQuery
6.3.9 位置跨度搜索SpanQuery
6.4 Lucene高级查询
6.4.1 索引内存检索
6.4.2 多关键字跨域检索
6.4.3 多检索器跨索引检索
6.5 Nutch中的Lucene查询
6.6 小结 7.1 搜索引擎文档排序原理
7.1.1 传统检索排序技术
7.1.2 向量模型排序局限
7.1.3 搜索引擎相关性排序
7.1.4 链接分析PageRank原理
7.1.5 搜索引擎排序流程
7.2 Lucene检索排序
7.2.1 Lucene相关性因素
7.2.2 Lucene相关排序流程
7.2.3 Lucene排序计算体系
7.2.4 Lucene排序控制方法
7.3 文档Boost加权排序
7.3.1 Lucene中Boost介绍
7.3.2 Boost值全文档排序
7.3.3 Boost值文档域排序
7.3.4 BoostingTermQuery排序
7.4 Sort对象检索排序
7.4.1 Sort对象概述
7.4.2 Sort对象相关性排序
7.4.3 Sort对象文档编号排序
7.4.4 Sort对象独立域排序
7.4.5 Sort对象联合域排序
7.4.6 Sort对象逆向排序
7.5 Lucene相关性公式
7.5.1 Lucene评分结果分析
7.5.2 Lucene排序公式
7.5.3 其他动态排序因子
7.6 Lucene自定义排序
7.6.1 自定义排序比较接口
7.6.2 自定义排序接口类实例
7.6.3 自定义排序结果测试实例
7.6.4 自定义排序测试结果
7.7 Nutch中的结果排序
7.7.1 Nutch排序因素
7.7.2 Nutch链接分析
7.7.3 Nutch相关度计算
7.8 小结 8.1 文档分析与中文分词原理
8.1.1 文档分析预处理概述
8.1.2 文档分析基本流程
8.1.3 中文分析处理中的分词
8.2 Lucene分析器内核原理
8.2.1 Lucene分析器原理
8.2.2 Analysis包简介
8.2.3 Analyzer类的组合结构
8.2.4 JavaCC构造分析器
8.2.5 StopAnalyzer内核代码分析
8.2.6 StandardAnalyzer内核代码分析
8.3 Lucene分析器应用模式
8.3.1 使用默认分析器建立索引
8.3.2 使用多种分析器建立索引
8.3.3 使用分析器检索查询
8.4 Lucene主要分析器应用实例
8.4.1 停用词分析器StopAnalyzer
8.4.2 标准分析器StandardAnalyzer
8.4.3 简单分析器SimpleAnalyzer
8.4.4 空格分析器WhitespaceAnalyzer
8.4.5 关键字分析器KeywordAnalyzer
8.5 TokenStream分词器内核分析
8.5.1 Tokenizer分词器
8.5.2 标准分词器StandardTokenizer
8.5.3 字符分词器CharTokenizer
8.5.4 空格分词器WhiteSpaceTokenizer
8.5.5 字母分词器LetterTokenizer
8.5.6 小写分词器LowerCaseTokenizer
8.6 TokenStream过滤器内核分析
8.6.1 TokenFilter过滤器
8.6.2 标准过滤器StandardFilter
8.6.3 停用词过滤器StopFilter
8.6.4 小写过滤器LowerCaseFilter
8.6.5 长度过滤器LengthFilter
8.6.6 词干过滤器PorterStemFilter
8.7 Lucene中文分词
8.7.1 中文分词基本原理方法
8.7.2 StandardAnalyzer分析器中文处理
8.7.3 CJKAnalyzer中文分析器
8.7.4 ChineseAnalyzer中文分析器
8.7.5 IK_CAnalyzer中文分析器
8.7.6 中科院ICTCLAS中文分词
8.7.7 JE中文分词
8.7.8 中文分词问题
8.8 Nutch分词和预处理
8.8.1 Nutch分析器
8.8.2 Nutch中文分词
8.9 小结 9.1 非结构化文本简介
9.1.1 非结构化文本概述
9.1.2 非结构化文本检索
9.2 HTML文档分析
9.2.1 主流HTML文档分析器
9.2.2 HTMLParser安装配置
9.2.3 HTMLParser的框架结构
9.3 HTMLParser应用实例
9.3.1 HTMLParser功能模式
9.3.2 HTMLParser内容解析方式
9.3.3 Visitor模式正文解析
9.3.4 Filter模式简单链接提取
9.3.5 Filter模式搜索链接提取
9.3.6 Lexer模式遍历文档
9.4 PDF文档分析
9.4.1 常用的PDF处理包
9.4.2 PDFBox安装配置
9.5 PDFBox应用实例
9.5.1 PDFBox提取文档内容
9.5.2 PDFBox文档内容索引
9.6 Office文档分析
9.6.1 常用Office文档处理包
9.6.2 使用POI安装与配置
9.6.3 POI原理与接口介绍
9.7 POI分析Office文档实例
9.7.1 POI处理Excel文档
9.7.2 POI处理Word文档
9.8 XML文档分析
9.8.1 主流XML文档分析器
9.8.2 JDOM分析器安装配置
9.8.3 xerces分析器安装配置
9.9 XML解析应用实例
9.9.1 使用JDOM分析XML 文档
9.9.2 使用xerces分析XML 文档
9.10 Nutch文档处理
9.11 小结 10.1 分布式检索与缓存
10.1.1 分布式搜索引擎现状
10.1.2 分布式搜索引擎原理
10.1.3 搜索引擎缓存现状
10.1.4 搜索引擎缓存原理
10.2 Nutch与分布式检索
10.2.1 Google分布式文件系统
10.2.2 MapReduce系统介绍
10.2.3 Hadoop分布式文件系统
10.2.4 Nutch分布式文件系统
10.2.5 Nutch分布式检索概述
10.2.6 Nutch分布式检索器
10.3 Lucene分布式检索
10.3.1 Socket通信基础
10.3.2 Lucene索引服务器
10.4 Nutch与搜索缓存
10.5 开源系统缓存系统
10.6 小结

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
Storm代理
2023-07-25 广告
StormProxies是一家可靠的代理服务提供商,提供原生IP(住宅原生IP)和高匿名代理服务。以下是关于StormProxies的原生IP服务的一些信息:1. 住宅原生IP:StormProxies提供的住宅原生IP是指从真实的家庭或企... 点击进入详情页
本回答由Storm代理提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式