如何使用中文分词和自定义中文分词词典
1个回答
2017-10-26
展开全部
你好
可以使用下面的命令,启用中文分词
CREATE EXTENSION zhparser;
CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;
--可选的参数设定
alter role all set zhparser.multi_short=on;
利用分词进行全文索引的方法如下
--为T1表的name字段创建全文索引
create index idx_t1 on t1 using gin (to_tsvector('zhcfg',upper(name) ));
--使用全文索引
select * from t1 where to_tsvector('zhcfg',upper(t1.name)) @@ to_tsquery('zhcfg','(防火)') ;
使用自定义分词的注意事项如下:
最多支持1000000条自定义分词,超出部分不做处理,用户必须保证分词数量在这个范围之内。自定义分词与缺省的分词词典将共同产生作用。
每个词的最大长度为128字节,超出部分将会截取。
通过增删改分词之后必须执行select zhprs_sync_dict_xdb();并且重新建立连接才会生效。
希望对你有帮助
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询