solr富文本全量怎么实现呢
展开全部
Solr支持从富文本文件中,如pdf,word中抽取内容建立索引。
首先,需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入:
1
2
3
4
5
6
7
8
9
10
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">content</str>
<str name="fmap.Content-Type">Content-Type</str>
<str name="uprefix">ignored_</str>
</lst>
<lst name="date.formats">
<str>yyyy-MM-dd</str>
</lst>
</requestHandler>
solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包:solr-dataimporthandler-extras.jar到lib目录,并确认solrconfig.xml中的lib配置包含它。
<div class="alert alert-info" role="info">ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的,</div>
调用/update/extract完成文件索引
调用/update/extrac的方式有很多种,下面介绍使用solr4j api在java工程里调用:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
//建立客户端连接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
//单个文件索引
public void indexFromFile(String fileName,String id) throws Exception{
//ContentStreamUpdateRequest 是专门用来提交文件的
ContentStreamUpdateRequest request=new ContentStreamUpdateRequest("/update/extract");
String contentType="application/text";
request.addFile(new File(fileName), contentType);
//literal.xxx 文件以外的字段,xxx将直接映射到schema.xml中的同名字段
request.setParam("literal.id", String.valueOf(id));
request.setParam("literal.author", author);
request.setParam("literal.title", tilte);
request.setAction(AbstractUpdateRequest.ACTION.OPTI
首先,需要配置支持这一功能的requestHandler。编辑solrconfig.xml,加入:
1
2
3
4
5
6
7
8
9
10
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">content</str>
<str name="fmap.Content-Type">Content-Type</str>
<str name="uprefix">ignored_</str>
</lst>
<lst name="date.formats">
<str>yyyy-MM-dd</str>
</lst>
</requestHandler>
solr.extraction.ExtractingRequestHandler就是solr中用来处理富文本的handler。为了使用这个类我们我们需要拷贝jar包:solr-dataimporthandler-extras.jar到lib目录,并确认solrconfig.xml中的lib配置包含它。
<div class="alert alert-info" role="info">ExtractingRequestHandler底层实际是使用apache Tika进行文件内容抽取的,</div>
调用/update/extract完成文件索引
调用/update/extrac的方式有很多种,下面介绍使用solr4j api在java工程里调用:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
//建立客户端连接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
//单个文件索引
public void indexFromFile(String fileName,String id) throws Exception{
//ContentStreamUpdateRequest 是专门用来提交文件的
ContentStreamUpdateRequest request=new ContentStreamUpdateRequest("/update/extract");
String contentType="application/text";
request.addFile(new File(fileName), contentType);
//literal.xxx 文件以外的字段,xxx将直接映射到schema.xml中的同名字段
request.setParam("literal.id", String.valueOf(id));
request.setParam("literal.author", author);
request.setParam("literal.title", tilte);
request.setAction(AbstractUpdateRequest.ACTION.OPTI
追问
哥们,咱能来点实际的不能。。这单个上传。。。。。。百度一搜一大把
本回答被网友采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询