python jieba分词如何去除停用词

 我来答

2个回答

#热议# 上班途中天气原因受伤算工伤吗？

utx938
2017-04-17 · 超过43用户采纳过TA的回答

知道小有建树答主

回答量：72

采纳率：90%

帮助的人：41.6万

我也去答题访问个人页

关注

展开全部

-*- coding: utf-8 -*-
import jieba
import jieba.analyse
import sys
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')

#使用其他编码读取停用词表
#stoplist = codecs.open('../../file/stopword.txt','r',encoding='utf8').readlines()
#stoplist = set(w.strip() for w in stoplist)
#停用词文件是utf8编码
stoplist = {}.fromkeys([ line.strip() for line in open("../../file/stopword.txt") ])

#经过分词得到的应该是unicode编码，先将其转成utf8编码

已赞过 已踩过<

评论收起

广州市魔书科技有限公司

广告2024-12-31

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co

哦美战0A
2019-09-06 · TA获得超过585个赞

知道小有建树答主

回答量：225

采纳率：70%

帮助的人：30.5万

我也去答题访问个人页

关注

展开全部

import jieba

# 创建停用词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords


# 对句子进行分词
def seg_sentence(sentence):
    sentence_seged = jieba.cut(sentence.strip())
    stopwords = stopwordslist('./test/stopwords.txt')  # 这里加载停用词的路径
    outstr = ''
    for word in sentence_seged:
        if word not in stopwords:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr


inputs = open('./test/input.txt', 'r', encoding='utf-8')
outputs = open('./test/output.txt', 'w')
for line in inputs:
    line_seg = seg_sentence(line)  # 这里的返回值是字符串
    outputs.write(line_seg + '\n')
outputs.close()
inputs.close()

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

开发语言python_Kimi-AI搜索-一键直达结果

开发语言python_Kimi-不限时长次数全免费的AI效率神器!写作、论文、翻译、聊天语音、编程样样全能，一站式极致体验尽在Kimi~

kimi.moonshot.cn广告

python的代码大全-4.0Turbo-国内入口

ppt生成、文本润色、翻译、文档阅读、写文案、写代码、写论文等API直连，集成12家知名企业大语言模型

chat.moshuai.co广告

python jieba分词如何去除停用词

您可能关注的内容

其他类似问题

为你推荐：