如何搭建nutch\solr的集群分布
1个回答
展开全部
安装和配置nutch
到用户主目录:
cd ~
建立文件夹:
mkdir nutch
将文件拷贝到~/hadoop/nutch目录,解压缩:
tar-zxvf apache-nutch-1.5-bin.tar.gz
如果没用权限,可以使用chmod和chown授权
验证一下,执行
bin/nutch
2.3安装和配置solr
到用户主目录:
cd ~
进入hadoop目录,拷贝apache-solr-3.6.0.tgz,解压缩:
tar-zxvf apache-solr-3.6.0.tgz
1)拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下,并且改名solr.war
2)将[solr_home]\example\下的solr目录拷贝到任意位置,我是放在:~/tomcat7/solr下
3)在tomcat目录下的conf\Catalina\localhost目录中(如果没有则手工创建该目录)创建solr.xml文件,文件内容如下:
<Context docBase="[tomat_home]/webapps/solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="[tomcat_home]/solr" override="true" />
</Context>
4)修改tomcat的server.xml文件,找到<Connector port="8080" … 项(假设tomcat监听8080端口),添加编码方式,修改后如下<Connector port="8080" URIEncoding="UTF-8"
5)启动tomcat,输入http://localhost:8080/solr/,出现欢迎界面则表示配置成功
2.4配置1KAnalyzer到solr
拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下
配置项目中文分词:
编辑[tomat_home]/solr/conf/schema.xml,在<Types>下添加以下内容:
?
<!--add 1kanalyzer configuration-->
<fieldType name="text"class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
然后在<fields>下添加:
?
<field name="name1"type="text" indexed="true" stored="true"required="true" />
重新启动tomcat,进入
http://localhost:8080/solr/admin/analysis.jsp
输入“中华人民共和国”,点击analyze,得到结果如下:
到用户主目录:
cd ~
建立文件夹:
mkdir nutch
将文件拷贝到~/hadoop/nutch目录,解压缩:
tar-zxvf apache-nutch-1.5-bin.tar.gz
如果没用权限,可以使用chmod和chown授权
验证一下,执行
bin/nutch
2.3安装和配置solr
到用户主目录:
cd ~
进入hadoop目录,拷贝apache-solr-3.6.0.tgz,解压缩:
tar-zxvf apache-solr-3.6.0.tgz
1)拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下,并且改名solr.war
2)将[solr_home]\example\下的solr目录拷贝到任意位置,我是放在:~/tomcat7/solr下
3)在tomcat目录下的conf\Catalina\localhost目录中(如果没有则手工创建该目录)创建solr.xml文件,文件内容如下:
<Context docBase="[tomat_home]/webapps/solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="[tomcat_home]/solr" override="true" />
</Context>
4)修改tomcat的server.xml文件,找到<Connector port="8080" … 项(假设tomcat监听8080端口),添加编码方式,修改后如下<Connector port="8080" URIEncoding="UTF-8"
5)启动tomcat,输入http://localhost:8080/solr/,出现欢迎界面则表示配置成功
2.4配置1KAnalyzer到solr
拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下
配置项目中文分词:
编辑[tomat_home]/solr/conf/schema.xml,在<Types>下添加以下内容:
?
<!--add 1kanalyzer configuration-->
<fieldType name="text"class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
然后在<fields>下添加:
?
<field name="name1"type="text" indexed="true" stored="true"required="true" />
重新启动tomcat,进入
http://localhost:8080/solr/admin/analysis.jsp
输入“中华人民共和国”,点击analyze,得到结果如下:
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询