jieba库的使用

 我来答
抛下思念17
2022-06-21 · TA获得超过1.1万个赞
知道大有可为答主
回答量:6211
采纳率:99%
帮助的人:34万
展开全部
/jieba库是python中一个重要的第三方中文分词函数库.(这名字起的,我给作者满分)

/jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过 图结构 和 动态规划 方法找到最大的概率的词组.除了分词,jieba还提供了自定义中文单词的功能.(并不知道划线的两种方法是什么......)

/jieba库支持3种分词模式:

精确模式:将句子最精确的切开,适合文本分析. 

全模式:把句子中所有可以成词的词语都扫描出来,速度快,但不能消除歧义. 

搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. 

/jieba库常用的分词函数:

1. jieba.cut(s) :精确模式,返回一个可迭代的数据类型.

2. jieba.cut(s,cut_all=True) :全模式,输出文本s中所有可能的单词.

3. jieba.cut_for_search(s) :搜索引擎模式,适合搜索引擎建立索引的分词结果.

4. jieba.lcut(s) :精确模式,返回一个列表类型(建议使用).

5. jieba.lcut(s,cut_all=True) :全模式,返回一个列表类型(建议使用).

6. jieba.lcut_for_search(s) :搜索引擎模式,返回一个列表类型(建议使用).

7. jierba.add_word(w) :向分词词典中增加新词w.
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式