python3怎么使用结巴分词

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

匿名用户
2016-03-16

展开全部

下面这个程序是对一个文本文件里的内容进行分词的程序：test.py

[python] view plain copy

#!/usr/bin/python

#-*- encoding:utf-8 -*-

import jieba #导入jieba模块

def splitSentence(inputFile, outputFile):

fin = open(inputFile, 'r') #以读的方式打开文件

fout = open(outputFile, 'w') #以写得方式打开文件

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理

wordList = list(jieba.cut(line)) #用结巴分词，对每行内容进行分词

outStr = ''

for word in wordList:

outStr += word

outStr += '/ '

fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件

fin.close()

fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

写完程序之后，在Linux重点输入：python test.py即可运行程序进行分词。

输入的文件内容如下所示：

经过结巴分词后，输出结果如下所示：

注意：第11行的 jieba.cut()返回的结构是一个可迭代的generator，可以用list(jieba.cut(...))转化为list

已赞过 已踩过<

评论收起

区块城市（广州）科技发展

广告2024-12-19

python web3务实元宇宙的先行者，去中心化自治组织开放平台，轻松加入或创建你的DAO组织创新采用Web3和区块链思维，python web3真正人人可用，无需下载安装

www.gzbluedata.com

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

元宇宙地址——点击进入网站

www.blockcity.top

pytnon-简体中文新版环境搭建下载-激活永久使用

正版软件，不捆绑安装一次收费，长期使用，绿色通道，无广告，十年安装经验致力用户高效开发，支持远程协助安装，支持重置，使用便捷放心。

www1.msc23.cn广告

说话结巴是什么原因造成的,7大因素导致结巴-结巴是什么原因引起的

为你推荐：

下载百度知道APP，抢鲜体验

使用百度知道APP，立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。

扫描二维码下载

×

个人、企业类侵权投诉
违法有害信息,请在下方选择后提交

类别

色情低俗
涉嫌违法犯罪
时政信息不实
垃圾广告
低质灌水

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交

取消

辅助

模式