python 怎么向textblob中加停用词

 我来答

1个回答

#热议# 什么是淋病？哪些行为会感染淋病？

从空去听8
2017-11-21 · TA获得超过7439个赞

知道大有可为答主

回答量：6907

采纳率：93%

帮助的人：5507万

我也去答题访问个人页

关注

展开全部

把语料从数据库提取出来以后就要进行分词啦，我是在linux环境下做的，先把jieba安装好，然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹（我这边是jieba-0.38），把自己的自定义词典（选用，目的是为了分出原始词库中没有的词以及优先分出一些词），停用词词典（选用），需要分词的语料文件，调用jieba的python程序都放到这个文件夹里，就可以用啦。至于词典要什么样的格式，在网上一查就可以了。

之前有看到别的例子用自定义词典替换掉jieba本身词典，但是我试了一下好像效果不行，假设原始词典中有’云‘，’计算‘而没有’云计算‘，我想要分出’云计算‘这个词，加载自定义词典可以成功，但替换原始词典就不一定成功了。（当然我说的也不一定对）

还有停用词词典，我之前是把停用词在程序里存入一个列表，然后分每个词时都循环一遍列表，这样特别浪费时间。后来把停用词做成字典就很快了。

for eachline in fin可避免memory error。如果还是报memory error，那应该就是输入语料文件单行数据多长了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块import re
jieba.load_userdict("newdict.txt") #加载自定义词典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用词做成字典
stopwords = {}
fstop = open('stop_words.txt', 'r') for eachWord in fstop:
stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')
fstop.close()

fin = open(inputFile, 'r') #以读的方式打开文件
fout = open(outputFile, 'w') #以写得方式打开文件
jieba.enable_parallel(4) #并行分词
for eachLine in fin:
line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理
line1 = re.sub("[0-9\s+\.\!\/_,$%^*()?;；:-【】+\"\']+|[+——！，;:。？、~@#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),line)
wordList = list(jieba.cut(line1)) #用结巴分词，对每行内容进行分词
outStr = ''
for word in wordList: if word not in stopwords:
outStr += word
outStr += ' '
fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件 fin.close()
fout.close()

splitSentence('ss.txt', 'tt.txt')

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 怎么向textblob中加停用词

其他类似问题

为你推荐：