Python作业求助

作业要求如下:(1)下载某个歌手的全部歌词或一部长篇小说,存成一个UTF-8编码的文本文件;(2)从文件中读取全部文本进行预处理:将标点符号全部替换成空格;(3)将预处理... 作业要求如下:
(1)下载某个歌手的全部歌词或一部长篇小说,存成一个UTF-8编码的文本文件;
(2)从文件中读取全部文本进行预处理:将标点符号全部替换成空格;
(3)将预处理之后的文本进行分词,统计每个单词出现的次数,生成词频字典;
现在我只做出来词频分析,但是不懂得标点符号如何替换成空格,以下是我写的半成品 求大佬修改,感激不尽!
import jieba
txt = open("绝代风华.txt","r",encoding='utf-8').read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
展开
 我来答
百度网友8e4ee6d
2018-12-25 · TA获得超过1138个赞
知道小有建树答主
回答量:887
采纳率:78%
帮助的人:365万
展开全部
正则替换就好
更多追问追答
追问
能详细说下吗
追答

就以你上面的话为例子

使用re模块很容易达到你的需求

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
百度网友6844b35
2018-12-25 · 贡献了超过598个回答
知道答主
回答量:598
采纳率:4%
帮助的人:45.3万
展开全部
不知道不知道不知道
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式