如何搭建nutch\solr的集群分布

 我来答
xiangjuan314
2016-04-14 · TA获得超过3.3万个赞
知道大有可为答主
回答量:2.9万
采纳率:0%
帮助的人:2873万
展开全部
安装和配置nutch
到用户主目录:
cd ~
建立文件夹:
mkdir nutch
将文件拷贝到~/hadoop/nutch目录,解压缩:
tar-zxvf apache-nutch-1.5-bin.tar.gz
如果没用权限,可以使用chmod和chown授权
验证一下,执行
bin/nutch

2.3安装和配置solr
到用户主目录:
cd ~
进入hadoop目录,拷贝apache-solr-3.6.0.tgz,解压缩:
tar-zxvf apache-solr-3.6.0.tgz
1)拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下,并且改名solr.war
2)将[solr_home]\example\下的solr目录拷贝到任意位置,我是放在:~/tomcat7/solr下
3)在tomcat目录下的conf\Catalina\localhost目录中(如果没有则手工创建该目录)创建solr.xml文件,文件内容如下:
<Context docBase="[tomat_home]/webapps/solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="[tomcat_home]/solr" override="true" />
</Context>
4)修改tomcat的server.xml文件,找到<Connector port="8080" … 项(假设tomcat监听8080端口),添加编码方式,修改后如下<Connector port="8080" URIEncoding="UTF-8"
5)启动tomcat,输入http://localhost:8080/solr/,出现欢迎界面则表示配置成功

2.4配置1KAnalyzer到solr
拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下
配置项目中文分词:
编辑[tomat_home]/solr/conf/schema.xml,在<Types>下添加以下内容:
?

<!--add 1kanalyzer configuration-->
<fieldType name="text"class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>

然后在<fields>下添加:
?

<field name="name1"type="text" indexed="true" stored="true"required="true" />

重新启动tomcat,进入
http://localhost:8080/solr/admin/analysis.jsp
输入“中华人民共和国”,点击analyze,得到结果如下:
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式